UltraSafety大型モデル安全性評価データセット
UltraSafety データセットは、大規模モデルの安全性を評価および改善するために、人民大学、清華大学、Tencent によって共同で作成されました。 UltraSafety は、AdvBench と MaliciousInstruct から 1,000 個の安全なシード命令を導出し、Self-Instruct を使用してさらに 2,000 個の命令をブートストラップします。研究チームは AutoDAN でジェイルブレイク ヒントを手動でスクリーニングし、最終的に 830 個の高品質なジェイルブレイク ヒントを選び出しました。 UltraSafety には合計 3,000 の有害な指示が含まれており、それぞれに関連する脱獄のヒントが付いています。各有害な命令は、さまざまなセキュリティ レベルのモデルによって生成された完了結果に対応し、GPT4 によって割り当てられた評価が伴います。評価 1 は無害を意味し、評価 0 は有害を意味します。 UltraSafety データセットは、これらの詳細なセキュリティ関連の指示を通じて、潜在的なセキュリティ脅威を特定して防止できるモデルをトレーニングする研究者を支援するように設計されています。
UltraSafety.torrent
シーディング 3ダウンロード中 1ダウンロード完了 229総ダウンロード数 539