Command Palette
Search for a command to run...
UltraSafety-Datensatz Zur Sicherheitsbewertung Großer Modelle
Der UltraSafety-Datensatz wurde gemeinsam von der Renmin University of China, der Tsinghua University und Tencent erstellt, um die Sicherheit großer Modelle zu bewerten und zu verbessern. UltraSafety leitet 1.000 Sicherheits-Seed-Anweisungen von AdvBench und MaliciousInstruct ab und verwendet Self-Instruct, um weitere 2.000 Anweisungen zu steuern. Das Forschungsteam überprüfte die Jailbreak-Aufforderungen in AutoDAN manuell und wählte schließlich 830 qualitativ hochwertige Jailbreak-Aufforderungen aus. UltraSafety enthält insgesamt 3.000 schädliche Anweisungen, jeweils mit zugehörigen Jailbreak-Tipps. Jede schädliche Anweisung entspricht einem von unserem Modell auf verschiedenen Sicherheitsstufen generierten Abschlussergebnis und wird von einer von GPT4 zugewiesenen Bewertung begleitet, wobei eine Bewertung von 1 harmlos und eine Bewertung von 0 schädlich bedeutet. Der UltraSafety-Datensatz soll Forschern dabei helfen, Modelle zu trainieren, die anhand dieser detaillierten sicherheitsrelevanten Anweisungen potenzielle Sicherheitsbedrohungen erkennen und verhindern können.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.