Command Palette
Search for a command to run...
أوستر-أي: ما وراء الرفض - مواءمة الأمان البنّاءة للنماذج اللغوية المسؤولة
Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

الملخص
تُطبّق نماذج اللغة الكبيرة عادةً آليات أمان لمنع إنتاج محتوى ضار. وتركز معظم الطرق الحالية بشكل ضيق على المخاطر الناتجة عن الجهات العدوانية، وغالبًا ما تُصوّر هذه المخاطر على أنها أحداث عدائية وتستند إلى رفض التفاعل الدفاعي. لكن في البيئات الواقعية، تنشأ المخاطر أيضًا من مستخدمين غير عدوانين يبحثون عن المساعدة بينما يعانون من ضغوط نفسية (مثل نوايا الانتحار). وفي هذه الحالات، يمكن أن يكون رد النموذج مؤثرًا بشكل كبير على الإجراءات التالية للمستخدم. وقد يؤدي الرفض البسيط إلى تكرار الطلب، أو تفاقمه، أو الانتقال إلى منصات غير آمنة، ما يُنتج نتائج أسوأ. نقدّم "التوافق الأمني البنّاء" (CSA)، وهو نموذج يركز على المستخدم، يحمي من الاستخدام الضار، ويُوجّه بشكل نشط المستخدمين الضعفاء نحو نتائج آمنة وفعّالة. تم تطبيق CSA في نموذج Oyster-I (Oy1)، حيث يدمج التنبؤ باستخدام نظرية الألعاب بسلوك المستخدم، واكتشاف حدود المخاطر بدقة عالية، وتحكم مُفسّر في التفكير، ما يحوّل الأمان إلى عملية بناء الثقة. ويحقق Oy1 مستوى قياسيًا في الأمان بين النماذج المفتوحة، مع الحفاظ على قدرات عامة عالية. وعلى معيارنا الخاص "البنّاء" (Constructive Benchmark)، يُظهر أداءً قويًا في التفاعل البنّاء، مقاربةً أداء GPT-5، كما يتفوّق بشكل كبير في المقاومة ضد هجمات الخروج عن النظام (jailbreak) على مجموعة بيانات Strata-Sword، مقتربًا من مستويات GPT-o1. وبتحويل النموذج من نهج "الرفض أولاً" إلى "التوجيه أولاً" في الأمان، يعيد CSA تعريف العلاقة بين النموذج والمستخدم، بهدف إنشاء أنظمة ليست آمنة فحسب، بل مفيدة بشكل حقيقي. ونُطلق Oy1، والكود البرمجي، ونظام التقييم، لدعم تطوير الذكاء الاصطناعي المسؤول والمركز حول المستخدم.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.