HyperAI

Der UltraSafety-Datensatz wurde gemeinsam von der Renmin University of China, der Tsinghua University und Tencent erstellt, um die Sicherheit großer Modelle zu bewerten und zu verbessern. UltraSafety leitet 1.000 Sicherheits-Seed-Anweisungen von AdvBench und MaliciousInstruct ab und verwendet Self-Instruct, um weitere 2.000 Anweisungen zu steuern. Das Forschungsteam überprüfte die Jailbreak-Aufforderungen in AutoDAN manuell und wählte schließlich 830 qualitativ hochwertige Jailbreak-Aufforderungen aus. UltraSafety enthält insgesamt 3.000 schädliche Anweisungen, jeweils mit zugehörigen Jailbreak-Tipps. Jede schädliche Anweisung entspricht einem von unserem Modell auf verschiedenen Sicherheitsstufen generierten Abschlussergebnis und wird von einer von GPT4 zugewiesenen Bewertung begleitet, wobei eine Bewertung von 1 harmlos und eine Bewertung von 0 schädlich bedeutet. Der UltraSafety-Datensatz soll Forschern dabei helfen, Modelle zu trainieren, die anhand dieser detaillierten sicherheitsrelevanten Anweisungen potenzielle Sicherheitsbedrohungen erkennen und verhindern können.

UltraSafety-Datensatz Zur Sicherheitsbewertung Großer Modelle

KI mit KI entwickeln

Hyper Newsletters

Command Palette

UltraSafety-Datensatz Zur Sicherheitsbewertung Großer Modelle

KI mit KI entwickeln

Hyper Newsletters