Direkte Präferenzoptimierung
Direct Preference Optimization (DPO) ist eine Feinabstimmungsstrategie zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen. Es wurde 2023 von einem Forschungsteam der Stanford University und CZ Biohub vorgeschlagen und in der Zeitung veröffentlichtDirekte Präferenzoptimierung: Ihr Sprachmodell ist insgeheim ein Belohnungsmodell》, veröffentlicht in NeurIPS 2023.
Die Kernidee von DPO besteht darin, direkt auf der Grundlage menschlicher Präferenzdaten zu optimieren, ohne ein separates Belohnungsmodell zu trainieren oder bestärkendes Lernen zu verwenden. Es optimiert das Sprachmodell mithilfe binärer Präferenzdaten, sodass das Modell eher dazu neigt, Antworten zu generieren, die von Menschen bevorzugt werden. Im Vergleich zum herkömmlichen bestärkenden Lernen mit menschlichem Feedback (RLHF) ist DPO einfacher, stabiler und weniger rechenintensiv. Es vermeidet den Anpassungsprozess des Belohnungsmodells, indem es den Präferenzverlust direkt in die Richtlinie einbezieht und gleichzeitig die KL-Divergenzbeschränkung verwendet, um sicherzustellen, dass das trainierte Modell nicht vom ursprünglichen Modell abweicht.
DPO soll einige Einschränkungen von RLHF beheben, wie z. B. hohe Rechenkosten, komplexe Belohnungsmodellierung und Instabilität während des Trainings. Experimente zeigen, dass DPO PPO-basiertes RLHF bei der Kontrolle der erzeugten Stimmung übertrifft und bei der Qualität der Zusammenfassung und der Antworten auf Dialoge in einer Runde mit diesem vergleichbar oder besser ist. Darüber hinaus verbessert DPO die Leistung des Modells weiter, indem es einen Offset-Wert einführt, um Präferenzpaare mit unterschiedlichen Präferenzstärken zu verarbeiten.