UltraSafety 대형 모델 안전 평가 데이터 세트
UltraSafety 데이터 세트는 중국 인민대학교, 청화대학교, 텐센트가 공동으로 제작하여 대형 모델의 안전성을 평가하고 개선하기 위해 만들어졌습니다. UltraSafety는 AdvBench와 MaliciousInstruct에서 1,000개의 안전 시드 지침을 파생하고 Self-Instruct를 사용하여 다른 2,000개의 지침을 안내합니다. 연구팀은 AutoDAN에서 탈옥 메시지를 수동으로 검토하여 최종적으로 830개의 고품질 탈옥 메시지를 선택했습니다. UltraSafety에는 총 3,000개의 유해한 지침이 포함되어 있으며, 각 지침에는 관련된 탈옥 팁이 포함되어 있습니다. 각 유해한 명령어는 다양한 안전 수준에서 우리 모델이 생성한 완료 결과에 해당하며, GPT4에서 지정한 등급이 함께 제공됩니다. 등급 1은 무해함을 나타내고 등급 0은 유해함을 나타냅니다. UltraSafety 데이터 세트는 연구자들이 이러한 자세한 안전 관련 지침을 통해 잠재적인 안전 위협을 식별하고 예방할 수 있는 모델을 훈련하는 데 도움이 되도록 설계되었습니다.
UltraSafety.torrent
시딩 2다운로드 중 0완료됨 212총 다운로드 횟수 525