Command Palette
Search for a command to run...
Multiplayer-Nash-Präferenz-Optimierung

Abstract
Reinforcement Learning from Human Feedback (RLHF) ist zum Standardansatz für die Ausrichtung großer Sprachmodelle (LLMs) an menschliche Präferenzen geworden. Allerdings stoßen belohnungsbasierte Methoden, die auf der Bradley-Terry-Annahme beruhen, an ihre Grenzen, wenn es darum geht, die nicht-transitiven und heterogenen Strukturen realweltlicher Präferenzen adäquat zu erfassen. Um dieses Problem anzugehen, haben neuere Studien die Ausrichtung als ein Zwei-Spieler-Nash-Spiel neu formuliert, was zur Entwicklung von Nash-Learning from Human Feedback (NLHF) führte. Obwohl dieser Ansatz Algorithmen wie INPO, ONPO und EGPO inspiriert hat, die starke theoretische und empirische Garantien bieten, bleiben diese grundsätzlich auf Zwei-Spieler-Interaktionen beschränkt und leiden unter einem Ein-Spieler-Bias, der die volle Komplexität realistischer Präferenzstrukturen nicht erfassen kann. In dieser Arbeit stellen wir Multiplayer Nash Preference Optimization (MNPO) vor, einen neuartigen Rahmen, der NLHF auf mehrere Spieler verallgemeinert. MNPO formuliert die Ausrichtung als n-Spieler-Spiel, bei dem jede Strategie gegen eine Population von Gegnern konkurriert, gleichzeitig aber reguliert wird, um eine Referenzmodell nahezu zu bleiben. Unser Rahmen stellt wohldefinierte Nash-Gleichgewichte in mehrspielerischen Szenarien sicher und erweitert das Konzept der Dualitätslücke, um die Qualität der Approximation zu quantifizieren. Wir zeigen, dass MNPO die Gleichgewichtseigenschaften von Zwei-Spieler-Methoden beibehält, gleichzeitig aber reichere Wettbewerbsdynamiken ermöglicht und eine verbesserte Abdeckung vielfältiger Präferenzstrukturen erzielt. Durch eine umfassende empirische Evaluierung demonstrieren wir, dass MNPO bestehende NLHF-Baselines auf Benchmarks zur Anweisungsausführung konsequent übertrifft, insbesondere unter heterogenen Annotatorenbedingungen und gemischten Strategie-Evaluierungsszenarien. Zusammenfassend etabliert sich MNPO als ein konsistenter und skalierbarer Ansatz zur Ausrichtung von LLMs an komplexe, nicht-transitive menschliche Präferenzen. Der Quellcode ist unter https://github.com/smiles724/MNPO verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.