HyperAIHyperAI
vor einem Monat

Red Teaming von Sprachmodellen zur Minderung von Schäden: Methoden, Skalierungsverhalten und gewonnene Erkenntnisse

Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, et al
Red Teaming von Sprachmodellen zur Minderung von Schäden: Methoden, Skalierungsverhalten und gewonnene Erkenntnisse
Abstract

Wir beschreiben unsere frühen Anstrengungen, Sprachmodelle im Rahmen eines „Red-Teaming“ zu testen, um gleichzeitig potenziell schädliche Ausgaben zu entdecken, zu messen und zu reduzieren. Wir leisten drei zentrale Beiträge. Erstens untersuchen wir das Skalierungsverhalten beim Red-Teaming anhand von drei Modellgrößen (2,7 Mrd., 13 Mrd. und 52 Mrd. Parameter) und vier Modelltypen: einem grundlegenden Sprachmodell (Language Model, LM); einem LM, der durch Prompting zur Hilfsbereitschaft, Ehrlichkeit und Schadlosigkeit angeregt wurde; einem LM mit Ablehnungsstichproben (rejection sampling); sowie einem Modell, das mittels Reinforcement Learning aus menschlicher Rückmeldung (Reinforcement Learning from Human Feedback, RLHF) auf Hilfsbereitschaft und Schadlosigkeit trainiert wurde. Wir stellen fest, dass RLHF-Modelle mit zunehmender Skalierung zunehmend schwerer zu „red teamen“ sind, während die anderen Modelltypen ein flaches Skalierungsverhalten aufweisen. Zweitens veröffentlichen wir unseren Datensatz mit 38.961 Red-Team-Angriffen, damit andere Forschende ihn analysieren und daraus lernen können. Wir präsentieren unsere eigene Analyse der Daten und identifizieren eine Vielzahl schädlicher Ausgaben, die von beleidigender Sprache bis hin zu subtiler, nicht gewalttätiger, ethisch problematischer Ausgabe reichen. Drittens geben wir eine umfassende Beschreibung unserer Anweisungen, Prozesse, statistischen Methoden sowie der Unsicherheiten im Zusammenhang mit dem Red-Teaming. Wir hoffen, dass diese Transparenz unsere gemeinsame Arbeit als Forschungsgemeinschaft beschleunigt und dazu beiträgt, gemeinsame Normen, Praktiken und technische Standards für das Red-Teaming von Sprachmodellen zu entwickeln.