HyperAI

Ensemble De Données D'évaluation De La Sécurité Du Grand Modèle UltraSafety

Date

il y a un an

Taille

17.43 MB

Organisation

Université Tsinghua

URL de publication

huggingface.co

L'ensemble de données UltraSafety a été créé conjointement par l'Université Renmin de Chine, l'Université Tsinghua et Tencent pour évaluer et améliorer la sécurité des grands modèles. UltraSafety dérive 1 000 instructions de sécurité d'AdvBench et de MaliciousInstruct, et utilise Self-Instruct pour guider 2 000 autres instructions. L'équipe de recherche a examiné manuellement les invites de jailbreak dans AutoDAN et a finalement sélectionné 830 invites de jailbreak de haute qualité. UltraSafety contient un total de 3 000 instructions nuisibles, chacune avec des conseils de jailbreak associés. Chaque instruction nuisible correspond à un résultat d'achèvement généré par notre modèle à différents niveaux de sécurité, et est accompagnée d'une note attribuée par GPT4, où une note de 1 indique inoffensif et une note de 0 indique nocif. L'ensemble de données UltraSafety est conçu pour aider les chercheurs à former des modèles capables d'identifier et de prévenir les menaces potentielles pour la sécurité grâce à ces instructions détaillées liées à la sécurité.

UltraSafety.torrent
Partage 2Téléchargement 0Terminés 212Téléchargements totaux 525
  • UltraSafety/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • UltraSafety.zip
          17.43 MB