HyperAI
Back to Headlines

DeepMind stellt Crome vor: Verbessert Ausrichtung von Sprachmodellen auf menschliches Feedback

vor 2 Tagen

Belohnungsmodelle sind wichtige Komponenten zur Angleichung großer Sprachmodelle (LLMs) mit menschlichem Feedback, aber sie leiden unter dem Problem des "Belohnungshackings". Diese Modelle konzentrieren sich oft auf oberflächliche Merkmale wie Antwortlänge oder Formatierung, anstatt echte Qualitätsindikatoren wie Faktualität und Relevanz zu erkennen. Dies liegt daran, dass Standard-Trainingsziele nicht zwischen den im Trainingsdatensatz vorhandenen scheinbaren Korrelationen und den tatsächlichen kausalen Treibern der Antwortqualität unterscheiden können. Dieses Versagen führt zu brüchigen Belohnungsmodellen (RMs), die fehlerhafte Strategien generieren. Um dieses Problem zu lösen, wird eine Methode benötigt, die eine kausale Auffassung von Präferenzbildung nutzt, um RMs zu trainieren, die sensibel für kausale Qualitätsattribute sind und gleichzeitig invariant gegenüber verschiedenen scheinbaren Merkmalen bleiben. Bestehende Methoden versuchen, das Belohnungshacking in standardmäßigen RLHF-Systemen (Reinforcement Learning from Human Feedback) durch Bradley-Terry- oder Paarvergleichsmethoden zu lösen. Dazu gehören architekturale Modifikationen wie Odin, policy-basierte Anpassungen und datenzentrierte Methoden, die Ensemble- oder Konsistenzprüfungen beinhalten. Neueste kausal inspirierte Ansätze verwenden MMD-Regulierung gegen vorgegebene scheinbare Faktoren oder schätzen kausale Effekte durch korrigierte Überarbeitungen. Allerdings richten sich diese Methoden nur auf vorbestimmte scheinbare Faktoren und übersehen unbekannte Korrelationen. Zudem bleiben Verstärkungsstrategien rau und evaluationszentrierte Ansätze können RMs nicht mit robusten Trainingsmechanismen ausstatten, um vielfältige scheinbare Variationen zu bekämpfen. Um diesen Herausforderungen entgegenzukommen, haben Forscher von Google DeepMind, der McGill University und dem MILA – Quebec AI Institute Crome (Causally Robust Reward Modeling) vorgeschlagen. Crome ist ein Framework, das auf einem expliziten kausalen Modell der Antwortgenerierung basiert. Es trainiert RMs, indem es preferenzorientierte Datensätze mit zielgerichteten, von LLMs generierten kontrafaktischen Beispielen erweitert, um echte Qualitätsfaktoren von oberflächlichen Clues zu differenzieren. Crome erstellt zwei Arten synthetischer Trainingspaare: (a) kausale Verstärkungen, die Änderungen entlang spezifischer kausaler Attribute wie Faktualität einführen, um Sensibilität für echte Qualitätsverschiebungen zu erzwingen, und (b) neutrale Verstärkungen, die Invarianz entlang scheinbarer Attribute wie Stil durch Gleichheitslabels erzwingen. Crome erhöht die Robustheit und verbessert die Genauigkeit von RewardBench um bis zu 4.5%, wobei es die Sicherheit und das Denkvermögen stark steigert. Das Crome-Framework operiert in zwei Hauptphasen: Es generiert attributbewusste kontrafaktische Daten basierend auf einem kausalen Modell und trainiert das Belohnungsmodell mit einer spezialisierten Verlustfunktion auf kombinierten Daten. Die Forscher leiten theoretisch her, wie kausale Verstärkungen unter einem idealisierten Modell die echten Belohnungsfaktoren von scheinbaren Korrelationen isolieren. Crome verwendet den UltraFeedback-Datensatz, bei dem kontrafaktische Beispiele mit Gemini 2.0 Flash generiert werden. Die Leistung wird anhand von RewardBench und reWordBench evaluiert, wobei diverse Basis-LLMs wie Gemma-2-9B-IT, Qwen2.5-7B und Gemma-2-2B eingesetzt werden, sowohl für Paarvergleiche als auch für Bradley-Terry-Belohnungsmodelle. Das Downstream-Ausrichtungsimpact wird durch Best-of-N-Auswahl bei mehreren Aufgaben gemessen. Crome erreicht auf RewardBench Genauigkeitsverbesserungen in der Rangfolge gegenüber RRM bei diversen Basismodellen, insbesondere in den Kategorien Sicherheit (bis zu 13.18%) und Denkvermögen (bis zu 7.19%). Es zeigt aggregierte Genauigkeitsverbesserungen von bis zu 9.1% auf reWordBench mit Gemma-2-9B-IT in Pairwise-Preference-Einstellungen und überzeugt in 21 von 23 Transformationen. Darüber hinaus weist Crome eine kleinere Abnahme der Rangfolgegenauigkeit von RewardBench zu reWordBench auf (19.78% gegenüber 21.54%). In Sicherheitstests wie WildGuardTest zeigte Crome ausgezeichnete Ergebnisse, wobei es die Angriffserfolgswahrscheinlichkeit auf schädliche Prompts reduzierte, während es ähnliche Ablehnungsraten für unschädliche Prompts beibehielt. Zusammenfassend haben die Forscher Crome eingeführt, ein kausales Framework, das Belohnungshacking während des Trainings von RMs löst. Es setzt auf zwei zielgerichtete synthetische Datenverstärkungsstrategien: kausale Verstärkungen und neutrale Verstärkungen. Crome übertrifft starke Baseline-Methoden in mehreren Basismodellen und Belohnungsmodellierungstechniken auf RewardBench und zeigt eine bessere Robustheit auf reWordBench gegen scheinbare Korrelationen. Diese datensatz-curierungszentrierte Trainingsmethode öffnet neue Forschungsrichtungen in der synthetischen Datenerstellung für Basismodelle, bei denen kausale Attributprüfung von großem Nutzen sein könnte, um die Robustheit von Sprachmodellen weiter zu verbessern. Experten in der Branche sehen in Crome ein vielversprechendes Werkzeug, um die Angleichung von LLMs an menschliches Feedback zu stärken. Google DeepMind, die McGill University und das MILA – Quebec AI Institute sind führende Institute im Bereich Künstliche Intelligenz und haben bereits bedeutende Fortschritte in der Entwicklung robusten maschinellen Lernens gemacht. Die Verbesserungen, die Crome bietet, haben weitreichende Implikationen, insbesondere für die Sicherheit und Zuverlässigkeit von LLMs in praktischen Anwendungen.

Related Links