مجموعة بيانات تقييم السلامة النموذجية الكبيرة من UltraSafety
تم إنشاء مجموعة بيانات UltraSafety بشكل مشترك من قبل جامعة رينمين الصينية وجامعة تسينغهوا وشركة Tencent لتقييم وتحسين سلامة النماذج الكبيرة. يستمد UltraSafety 1000 تعليمة أساسية للسلامة من AdvBench وMaliciousInstruct، ويستخدم Self-Instruct لتوجيه 2000 تعليمة أخرى. قام فريق البحث بفحص مطالبات كسر الحماية يدويًا في AutoDAN وفي النهاية حدد 830 مطالبة كسر حماية عالية الجودة. يحتوي UltraSafety على إجمالي 3000 تعليمة ضارة، كل منها مع نصائح كسر الحماية المرتبطة بها. تتوافق كل تعليمات ضارة مع نتيجة الإكمال التي تم إنشاؤها بواسطة نموذجنا عند مستويات أمان مختلفة، وتكون مصحوبة بتصنيف معين بواسطة GPT4، حيث يشير التصنيف 1 إلى عدم الضرر ويشير التصنيف 0 إلى الضرر. تم تصميم مجموعة بيانات UltraSafety لمساعدة الباحثين في تدريب النماذج التي يمكنها تحديد ومنع التهديدات المحتملة للسلامة من خلال هذه التعليمات التفصيلية المتعلقة بالسلامة.