HyperAIHyperAI
vor 3 Tagen

DuPO: Förderung zuverlässiger LLM-Selbstüberprüfung durch Dual-Preference-Optimierung

Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
DuPO: Förderung zuverlässiger LLM-Selbstüberprüfung durch Dual-Preference-Optimierung
Abstract

Wir präsentieren DuPO, einen dualen, lernbasierten Ansatz zur Präferenzoptimierung, der feedbackfreie Rückmeldungen über eine verallgemeinerte Dualität generiert. DuPO adressiert zwei zentrale Einschränkungen: Zum einen die hohe Kostenintensität von Etikettierungen bei der Verifizierbaren Belohnungsverstärkung (Reinforcement Learning with Verifiable Rewards, RLVR) und die Beschränkung auf verifizierbare Aufgaben; zum anderen die Einschränkung herkömmlicher Dual-Lernverfahren auf strikt duale Aufgabenpaare (z. B. Übersetzung und Rückübersetzung). Konkret zerlegt DuPO die Eingabe einer primalen Aufgabe in bekannte und unbekannte Komponenten und konstruiert dann eine duale Aufgabe, um die unbekannten Teile mithilfe des Ausgangs der primalen Aufgabe und der bekannten Informationen wiederherzustellen (z. B. das Umkehren mathematischer Lösungen zur Rückgewinnung versteckter Variablen), wodurch die Anwendbarkeit auf nicht-invertierbare Aufgaben erweitert wird. Die Qualität dieser Rekonstruktion dient als selbstüberwachter Belohnungswert zur Optimierung der primalen Aufgabe und synergisiert mit der Fähigkeit von Großmodellen (LLMs), beide Aufgaben über ein einziges Modell zu realisieren. Empirisch erzielt DuPO erhebliche Verbesserungen über eine Vielzahl von Aufgaben hinweg: Die durchschnittliche Übersetzungsqualität steigt um 2,13 COMET-Werte über 756 Übersetzungsrichtungen, die Genauigkeit bei mathematischer Schlussfolgerung verbessert sich im Durchschnitt um 6,4 Punkte auf drei anspruchsvollen Benchmark-Datensätzen, und als Reranker zur Inferenzzeit steigert DuPO die Leistung um 9,3 Punkte (unter Verzicht auf Rechenleistung zugunsten höherer Genauigkeit). Diese Ergebnisse positionieren DuPO als skalierbaren, allgemein anwendbaren und etikettierungsfreien Ansatz zur Optimierung von Großmodellen.