HyperAIHyperAI
vor 17 Tagen

Red-Teaming von Large Language Models mittels Chain of Utterances zur Safety-Alignment

Rishabh Bhardwaj, Soujanya Poria
Red-Teaming von Large Language Models mittels Chain of Utterances zur Safety-Alignment
Abstract

Große Sprachmodelle (LLMs) haben die Welt mit ihren umfangreichen Multitask-Fähigkeiten erobert, indem sie lediglich durch Optimierung eines Next-Word-Prediction-Ziels erreicht wurden. Mit der Entwicklung ihrer Eigenschaften und der in ihnen kodierten Wissensbestände steigt jedoch das Risiko, dass LLMs schädliche Ausgaben generieren, was sie für eine skalierbare Bereitstellung im öffentlichen Bereich ungeeignet macht. In dieser Arbeit präsentieren wir einen neuen Sicherheitsbewertungsbenchmark namens RED-EVAL, der Red-Teaming durchführt. Wir zeigen, dass selbst weit verbreitete Modelle anfällig für CoU-basierte (Chain of Utterances) Prompting sind und geschlossene-Quell-LLM-Systeme wie GPT-4 und ChatGPT dazu verleiten können, auf mehr als 65 % bzw. 73 % schädlicher Anfragen unethisch zu antworten. Außerdem demonstrieren wir die Konsistenz von RED-EVAL bei acht Open-Source-LLMs, wobei in mehr als 86 % der Red-Teaming-Versuche schädliche Antworten generiert werden. Anschließend schlagen wir RED-INSTRUCT vor – einen Ansatz zur Sicherheitsausrichtung von LLMs. Dieser besteht aus zwei Phasen: 1) Sammlung von HARMFULQA-Daten: Unter Nutzung von CoU-Prompting sammeln wir eine Datensammlung mit 1.900 schädlichen Fragen, die eine breite Themenpalette abdecken, sowie 9.500 sichere und 7.300 schädliche Gespräche aus ChatGPT; 2) SAFE-ALIGN: Wir zeigen, wie das Gesprächsdatensatz zur Sicherheitsausrichtung von LLMs eingesetzt werden kann, indem die negative Log-Likelihood hilfreicher Antworten minimiert und schädliche Antworten durch Gradienten-Verstärkung über die Stichprobenverluste bestraft werden. Unser Modell STARLING, eine fine-tuned Variante von Vicuna-7B, zeigt sich bei der Bewertung an RED-EVAL und den HHH-Benchmarks stärker sicherheitsausgerichtet, während die Nutzbarkeit der Basismodelle (TruthfulQA, MMLU und BBH) erhalten bleibt.