Ensemble De Données D'évaluation De La Sécurité Du Grand Modèle UltraSafety
Date
Taille
URL de publication
Tags
Catégories
L'ensemble de données UltraSafety a été créé conjointement par l'Université Renmin de Chine, l'Université Tsinghua et Tencent pour évaluer et améliorer la sécurité des grands modèles. UltraSafety dérive 1 000 instructions de sécurité d'AdvBench et de MaliciousInstruct, et utilise Self-Instruct pour guider 2 000 autres instructions. L'équipe de recherche a examiné manuellement les invites de jailbreak dans AutoDAN et a finalement sélectionné 830 invites de jailbreak de haute qualité. UltraSafety contient un total de 3 000 instructions nuisibles, chacune avec des conseils de jailbreak associés. Chaque instruction nuisible correspond à un résultat d'achèvement généré par notre modèle à différents niveaux de sécurité, et est accompagnée d'une note attribuée par GPT4, où une note de 1 indique inoffensif et une note de 0 indique nocif. L'ensemble de données UltraSafety est conçu pour aider les chercheurs à former des modèles capables d'identifier et de prévenir les menaces potentielles pour la sécurité grâce à ces instructions détaillées liées à la sécurité.