vor 16 Tagen

Direkte Präferenzoptimierung unter nicht beobachteter Präferenzheterogenität: Die Notwendigkeit ternärer Präferenzen

Details der Forschungsarbeit anzeigen Code anzeigen

Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

Direkte Präferenzoptimierung unter nicht beobachteter Präferenzheterogenität: Die Notwendigkeit ternärer Präferenzen

Abstract

Reinforcement Learning from Human Feedback (RLHF) ist mittlerweile zentral für die Ausrichtung großer Sprachmodelle an menschlichen Werten und erfolgt typischerweise in zwei Schritten: Zunächst wird ein Belohnungsmodell anhand von Präferenzdaten gelernt, das anschließend zur Anpassung des Sprachmodells mittels Verstärkungslernen genutzt wird. Neuere Ansätze wie Direct Preference Optimization (DPO) vereinfachen diesen Prozess, indem sie die Präferenzen direkt optimieren, ohne ein separates Belohnungsmodell zu erfordern. Beide Ansätze gehen jedoch häufig von gleichförmigen Bewertungspräferenzen der Annotatoren aus und basieren auf binären Vergleichen, wodurch zwei wesentliche Einschränkungen außer Acht bleiben: die Vielfalt menschlicher Beurteiler und die Beschränkungen von Paarvergleichen. In dieser Arbeit behandeln wir beide Probleme. Erstens verknüpfen wir die Präferenzlernmethode im RLHF mit der Ökonometrie-Literatur und zeigen, dass binäre Vergleiche nicht ausreichen, um latente Nutzerpräferenzen aus endlichen Nutzern- und unendlichen Nutzerdaten zu identifizieren, während (sogar unvollständige) Rangfolgen über drei oder mehr Antworten die Identifizierbarkeit gewährleisten. Zweitens stellen wir Methoden vor, um heterogene Präferenzen in Ausrichtungsalgorithmen einzubeziehen. Wir entwickeln eine Erwartung-Maximierung-Anpassung von DPO, die latente Annotatortypen erkennt und entsprechend eine Mischung aus großen Sprachmodellen trainiert. Anschließend schlagen wir einen Aggregationsalgorithmus vor, der auf einem Minimax-Regret-Gerechtigkeitskriterium basiert, um eine einzelne generative Politik mit fairen Leistungszielen zu erzeugen. Zusammen stellen diese Beiträge einen theoretischen und algorithmischen Rahmen für Fairness und Personalisierung bei der Ausrichtung generativer Modelle für vielfältige Nutzer bereit.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Direkte Präferenzoptimierung unter nicht beobachteter Präferenzheterogenität: Die Notwendigkeit ternärer Präferenzen

Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

Abstract

KI mit KI entwickeln

Hyper Newsletters