Adam Tauman Kalai Yael Tauman Kalai Or Zamir

الملخص
تعتمد العديد من المناهج المتبعة في مجال السلامة الذكية الاصطناعية على فحص مخرجات النماذج أو إشاراتها النشطة، ومع ذلك فإن بعض المخاطر تكون بطبيعتها غير قابلة للكشف من خلال الفحص وحده. نقترح منهجًا مكملًا، غير مرتبط بالبنية المعمارية، يعزز السلامة من خلال جمع عدة نماذج توليدية، بحيث يرث النموذج المجمع سلامته من أصغر مجموعة آمنة ضمن مجموعة معينة من هذه النماذج. بشكل خاص، نقدم خوارزمية استخلاص اتفاقية (consensus sampling)، والتي، عند توفر ( k ) نماذج وطلب (prompt)، تحقق مستوى من المخاطر يعادل المخاطر المتوسطة لأفضل ( s ) نماذج ضمن ( k ) النماذج، حيث يُختار ( s ) كمعلمة محددة، مع التوقف عن الإجابة عندما يكون هناك عدم اتفاق كافٍ بين النماذج. يعتمد هذا النهج على قدرة النماذج على حساب احتمالات المخرجات، ونُحدِّد احتمال التوقف عن الإجابة في حال توفر عدد كافٍ من النماذج الآمنة مع وجود اتفاق كافٍ بينها. وتُستلهم الخوارزمية من خوارزمية الحماية القائمة على حقوق الملكية المثبتة رياضيًا التي طرحتها فياس وآخرون (2023). وتتطلب الخوارزمية وجود تداخل بين النماذج الآمنة، ولا تقدم أي حماية إذا كانت جميع النماذج غير آمنة، وقد تتراكم المخاطر مع الاستخدام المتكرر. ومع ذلك، فإن نتائجنا توفر منهجًا جديدًا غير مرتبط بالنموذج في مجال السلامة الذكية الاصطناعية، من خلال تعزيز ضمانات السلامة من مجموعة غير معروفة من النماذج ضمن مجموعة إلى مستوى يعادل السلامة الموثوقة لنموذج واحد.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.