HyperAI超神经

UltraSafety 数据集由人民大学、清华大学和腾讯联合创建，旨在评估和提升大模型安全性。 UltraSafety 是从 AdvBench 和 MaliciousInstruct 导出 1,000 条安全种子指令，并使用 Self-Instruct 引导另外 2,000 条指令。研究团队对 AutoDAN 中的越狱提示进行了手动筛选，最终筛选出了 830 条高质量的越狱提示。 UltraSafety 总共包含 3,000 条有害指令，每条指令都附有相关的越狱提示。每条有害指令对应于我们由不同安全级别的模型生成的完成结果，并附有 GPT4 指定的评级，其中评级 1 表示无害，评级 0 表示有害。 UltraSafety 数据集旨在通过这些详细的安全相关指令，辅助研究者训练出能够识别并防范潜在安全威胁的模型。

UltraSafety 大模型安全评价数据集