Crome: Kausales Modell verbessert Reward-Genauigkeit und Sicherheit bei LLMs
Google DeepMind, McGill University und das MILA – Quebec AI Institute haben kürzlich ein neues Framework namens Crome (Causally Robust Reward Modeling) vorgestellt. Dieses Framework dient dazu, robuste Belohnungsmodelle (RMs) für large language models (LLMs) zu entwickeln, die auf menschlichen Feedback ausgerichtet sind. Die Herausforderung bei der Ausrichtung von LLMs besteht darin, dass herkömmliche RMs oft nur oberflächliche Merkmale wie Antwortlänge oder Formatierung berücksichtigen, anstatt echte Qualitätsindikatoren wie Faktualität und Relevanz zu identifizieren. Dies führt zu brüchigen RMs, die inkonsistente Richtlinien generieren, da sie zwischen zufälligen Korrelationen in den Trainingsdaten und echten kausalen Treibern der Antwortqualität nicht unterscheiden können. Bestehende Ansätze und deren Grenzen Bestehende Methoden zur Lösung von Belohnungshack-Problemen in standardmäßigen RLHF-Systemen (Reinforcement Learning from Human Feedback) nutzen Bradley-Terry- oder paarweise Rangfolgemethoden. Diese Ansätze umfassen architekturale Modifikationen wie Odin, Anpassungen auf Policy-Ebene und datenzentrierte Methoden, die Ensembles oder Konsistenzprüfungen verwenden. Kürzlich wurden kausale Methoden eingeführt, die MMD-Regulierung (Maximum Mean Discrepancy) gegen vordefinierte störende Faktoren oder die Schätzung kausaler Effekte durch korrigierte Umschreibungen verwenden. Allerdings greifen diese Methoden nur auf vorbestimmte störende Faktoren ab und ignorieren unbekannte Korrelationen. Zudem bleiben die Verstärkungsstrategien grob, und bewertungsorientierte Methoden sind nicht in der Lage, robuste Trainingsmechanismen gegen vielfältige störende Variationen bereitzustellen. Einführung von Crome Crome basiert auf einem expliziten kausalen Modell der Antworten-Generierung. Es schult RMs, echte Qualitätsfaktoren von oberflächlichen Hinweisen zu unterscheiden, indem es Präferenzdatensätze mit gezielten, LLM-generierten kontratfaktischen Beispielen erweitert. Crome erstellt zwei Arten synthetischer Trainingspaare: (a) kausale Verstärkungen, die Änderungen entlang spezifischer kausaler Attribute wie Faktualität einführen, um die Empfindlichkeit gegenüber echten Qualitätsverschiebungen zu erhöhen, und (b) neutrale Verstärkungen, die Invarianz entlang störender Attribute wie Stil durch Bindungslabels erzwingen. Diese Methode erhöht die Robustheit und verbessert die Sicherheit und das Denken des Modells. Technischer Ansatz: Kontratfaktische Verstärkung und Kompositverlustoptimierung Crome funktioniert in zwei Hauptphasen: Erzeugung von attributbewussten kontratfaktischen Daten basierend auf einem kausalen Modell und Schule des Belohnungsmodells mit einem spezialisierten Verlust auf kombinierten Daten. Die Forscher führen eine theoretische Analyse durch, wie kausale Verstärkungen unter einem idealisierten Modell echte Belohnungstreiber von störenden Korrelationen isolieren. Crome nutzt den UltraFeedback-Datensatz mit kontratfaktischen Beispielen, die durch Gemini 2.0 Flash generiert werden, und bewertet die Leistung auf RewardBench und reWordBench. In den Experimenten werden verschiedene Basis-LLMs verwendet, darunter Gemma-2-9B-IT, Qwen2.5-7B und Gemma-2-2B, sowohl für paarweise Präferenzen als auch für Bradley-Terry-Belohnungsmodelle, und der Auswirkungen auf die Ausrichtung durch Best-of-N-Auswahl in mehreren Aufgaben untersucht. Leistungsverbesserungen: Von RewardBench bis WildGuardTest Auf RewardBench erzielt Crome Verbesserungen in der Rangfolgegenauigkeit im Vergleich zu RRM (Robust Reward Modeling) über verschiedene Basis-Modelle. Besonders signifikante Verbesserungen zeigt Crome in den Kategorien Sicherheit (bis zu 13.18%) und Denken (bis zu 7.19%). Crome erzielt eine aggregierte Genauigkeitssteigerung von bis zu 9.1% auf reWordBench mit Gemma-2-9B-IT in Pairwise-Präferenz-Einstellungen und übertrifft die Leistung in 21 von 23 Transformationen. Zudem zeigt Crome einen geringeren Rückgang der Rangfolgegenauigkeit von RewardBench zu reWordBench im Vergleich zu RRM (19.78% gegenüber 21.54%). Bei der Best-of-N-Auswahl auf WildGuardTest erreicht Crome ausgezeichnete Sicherheitsverbesserungen, indem es den Angriffserfolgsquoten auf schädliche Prompts senkt, während es ähnliche Ablehnungsraten bei harmlosen Prompts beibehält. Fazit und Zukunftsperspektiven in kausaler Dataverstärkung Zusammenfassend haben die Forscher Crome als ein kausales Framework vorgestellt, das Belohnungshack-Probleme während der Trainingsschritte von RMs löst. Crome setzt zwei gezielte Strategien zur synthetischen Dataverstärkung ein: kausale Verstärkungen und neutrale Verstärkungen. Es übertrifft starke Baseline-Modelle in mehreren Basis-Modellen und Belohnungsmodellierungs-Techniken auf RewardBench und zeigt eine überlegene Robustheit auf reWordBench gegen störende Korrelationen. Diese datensatzzentrierte Trainingsmethode (Crome) eröffnet neue Forschungsrichtungen in der synthetischen Datengenerierung für die Trainingsschritte von Basis-Modellen, wobei kausale Attributfeststellung für zukünftige Entwicklungen in robuster Ausrichtung von Sprachmodellen von großer Bedeutung sein könnte. Industrieexperten loben Crome für seinen innovativen Ansatz, der die Robustheit von Belohnungsmodellen durch die Integration von kausalem Wissen erheblich verbessert. Google DeepMind, ein führendes Unternehmen im Bereich der künstlichen Intelligenz, hat sich durch dieses Projekt als Vorreiter in der Entwicklung robuster LLM-Ausrichtungsstrategien etabliert. Die Forschung deutet darauf hin, dass Crome ein wichtiger Schritt zur Verbesserung der Sicherheit und Effektivität von Sprachmodellen ist.