Command Palette
Search for a command to run...
Direkte Präferenzoptimierung unter nicht beobachteter Präferenzheterogenität: Die Notwendigkeit ternärer Präferenzen
Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

Abstract
Reinforcement Learning from Human Feedback (RLHF) ist mittlerweile zentral für die Ausrichtung großer Sprachmodelle an menschlichen Werten und erfolgt typischerweise in zwei Schritten: Zunächst wird ein Belohnungsmodell anhand von Präferenzdaten gelernt, das anschließend zur Anpassung des Sprachmodells mittels Verstärkungslernen genutzt wird. Neuere Ansätze wie Direct Preference Optimization (DPO) vereinfachen diesen Prozess, indem sie die Präferenzen direkt optimieren, ohne ein separates Belohnungsmodell zu erfordern. Beide Ansätze gehen jedoch häufig von gleichförmigen Bewertungspräferenzen der Annotatoren aus und basieren auf binären Vergleichen, wodurch zwei wesentliche Einschränkungen außer Acht bleiben: die Vielfalt menschlicher Beurteiler und die Beschränkungen von Paarvergleichen. In dieser Arbeit behandeln wir beide Probleme. Erstens verknüpfen wir die Präferenzlernmethode im RLHF mit der Ökonometrie-Literatur und zeigen, dass binäre Vergleiche nicht ausreichen, um latente Nutzerpräferenzen aus endlichen Nutzern- und unendlichen Nutzerdaten zu identifizieren, während (sogar unvollständige) Rangfolgen über drei oder mehr Antworten die Identifizierbarkeit gewährleisten. Zweitens stellen wir Methoden vor, um heterogene Präferenzen in Ausrichtungsalgorithmen einzubeziehen. Wir entwickeln eine Erwartung-Maximierung-Anpassung von DPO, die latente Annotatortypen erkennt und entsprechend eine Mischung aus großen Sprachmodellen trainiert. Anschließend schlagen wir einen Aggregationsalgorithmus vor, der auf einem Minimax-Regret-Gerechtigkeitskriterium basiert, um eine einzelne generative Politik mit fairen Leistungszielen zu erzeugen. Zusammen stellen diese Beiträge einen theoretischen und algorithmischen Rahmen für Fairness und Personalisierung bei der Ausrichtung generativer Modelle für vielfältige Nutzer bereit.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.