HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

Direkte Präferenzoptimierung unter nicht beobachteter Präferenzheterogenität: Die Notwendigkeit ternärer Präferenzen

Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

Direkte Präferenzoptimierung unter nicht beobachteter Präferenzheterogenität: Die Notwendigkeit ternärer Präferenzen

Abstract

Reinforcement Learning from Human Feedback (RLHF) ist mittlerweile zentral für die Ausrichtung großer Sprachmodelle an menschlichen Werten und erfolgt typischerweise in zwei Schritten: Zunächst wird ein Belohnungsmodell anhand von Präferenzdaten gelernt, das anschließend zur Anpassung des Sprachmodells mittels Verstärkungslernen genutzt wird. Neuere Ansätze wie Direct Preference Optimization (DPO) vereinfachen diesen Prozess, indem sie die Präferenzen direkt optimieren, ohne ein separates Belohnungsmodell zu erfordern. Beide Ansätze gehen jedoch häufig von gleichförmigen Bewertungspräferenzen der Annotatoren aus und basieren auf binären Vergleichen, wodurch zwei wesentliche Einschränkungen außer Acht bleiben: die Vielfalt menschlicher Beurteiler und die Beschränkungen von Paarvergleichen. In dieser Arbeit behandeln wir beide Probleme. Erstens verknüpfen wir die Präferenzlernmethode im RLHF mit der Ökonometrie-Literatur und zeigen, dass binäre Vergleiche nicht ausreichen, um latente Nutzerpräferenzen aus endlichen Nutzern- und unendlichen Nutzerdaten zu identifizieren, während (sogar unvollständige) Rangfolgen über drei oder mehr Antworten die Identifizierbarkeit gewährleisten. Zweitens stellen wir Methoden vor, um heterogene Präferenzen in Ausrichtungsalgorithmen einzubeziehen. Wir entwickeln eine Erwartung-Maximierung-Anpassung von DPO, die latente Annotatortypen erkennt und entsprechend eine Mischung aus großen Sprachmodellen trainiert. Anschließend schlagen wir einen Aggregationsalgorithmus vor, der auf einem Minimax-Regret-Gerechtigkeitskriterium basiert, um eine einzelne generative Politik mit fairen Leistungszielen zu erzeugen. Zusammen stellen diese Beiträge einen theoretischen und algorithmischen Rahmen für Fairness und Personalisierung bei der Ausrichtung generativer Modelle für vielfältige Nutzer bereit.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Direkte Präferenzoptimierung unter nicht beobachteter Präferenzheterogenität: Die Notwendigkeit ternärer Präferenzen | Forschungsarbeiten | HyperAI