UltraSafety 大模型安全评价数据集
UltraSafety 数据集由人民大学、清华大学和腾讯联合创建,旨在评估和提升大模型安全性。 UltraSafety 是从 AdvBench 和 MaliciousInstruct 导出 1,000 条安全种子指令,并使用 Self-Instruct 引导另外 2,000 条指令。研究团队对 AutoDAN 中的越狱提示进行了手动筛选,最终筛选出了 830 条高质量的越狱提示。 UltraSafety 总共包含 3,000 条有害指令,每条指令都附有相关的越狱提示。每条有害指令对应于我们由不同安全级别的模型生成的完成结果,并附有 GPT4 指定的评级,其中评级 1 表示无害,评级 0 表示有害。 UltraSafety 数据集旨在通过这些详细的安全相关指令,辅助研究者训练出能够识别并防范潜在安全威胁的模型。
UltraSafety.torrent
做种 3正在下载 0已完成 204总下载次数 517