MaPPO: Maximum a Posteriori Präferenzoptimierung mit Vorwissen
Mit der Ausbreitung der Ära großer Sprachmodelle (Large Language Models, LLMs) im Dienste der Nutzer haben Präferenzoptimierungsverfahren (Preference Optimization, PO) eine zentrale Rolle bei der Ausrichtung von LLMs an menschliche Präferenzen und der Verbesserung ihrer Leistungsfähigkeit übernommen. Wir stellen Maximum-a-Posteriori-Präferenzoptimierung (MaPPO) vor, einen Rahmen zur Lernprozesse aus Präferenzen, der explizit vorherige Belohnungswissen in das Optimierungsziel integriert. Während bestehende Ansätze wie die Direkte Präferenzoptimierung (Direct Preference Optimization, DPO) und deren Varianten das Lernen aus Präferenzen als ein Maximum-Likelihood-Schätzung-Problem (Maximum Likelihood Estimation, MLE) behandeln, erweitert MaPPO dieses Paradigma, indem es vorherige Schätzungen der Belohnung in ein konsistentes Maximum-a-Posteriori- (MaP-) Optimierungsziel einbezieht. Dies verallgemeinert nicht nur DPO und seine Varianten, sondern verbessert auch die Ausrichtung, indem die zu stark vereinfachte binäre Klassifikation von Antworten gemildert wird. Vor allem ist MaPPO frei von zusätzlichen Hyperparametern und unterstützt die Präferenzoptimierung sowohl in offline- als auch in online-Setting. Zudem kann MaPPO als Plug-in genutzt werden und führt bei DPO-Varianten – einschließlich der weit verbreiteten SimPO, IPO und CPO – zu konsistenten Verbesserungen. Umfassende empirische Evaluierungen an unterschiedlichen Modellgrößen und -serien auf drei Standardbenchmarks – darunter MT-Bench, AlpacaEval 2.0 und Arena-Hard – zeigen eine konsistente Steigerung der Ausrichtungsleistung ohne Verlust an rechnerischer Effizienz.