Command Palette
Search for a command to run...
Inpainting-gestützte Politik-Optimierung für Diffusions-Größensprachmodelle

Abstract
Maskierte Diffusions-Größensprachmodelle (dLLMs) etablieren sich als vielversprechende Alternativen zu autoregressiven LLMs und bieten wettbewerbsfähige Leistungsfähigkeit, wobei sie zudem einzigartige Generierungsfähigkeiten wie Inpainting ermöglichen. Wir untersuchen, wie Inpainting die Gestaltung von Reinforcement-Learning-(RL)-Algorithmen für dLLMs beeinflussen kann. Die Anpassung von LLMs an das Reinforcement Learning stößt auf die Herausforderung der Exploration: seltene Belohnungssignale und Verschwendung von Proben, wenn Modelle nicht in der Lage sind, korrekte Lösungen zu finden. Während diese Ineffizienz LLMs allgemein betrifft, bietet die dLLM-Struktur eine besondere Chance – ihre Fähigkeit zum Inpainting kann die Exploration leiten. Wir stellen IGPO (Inpainting-Guided Policy Optimization) vor, einen RL-Framework, der während des Online-Samplings strategisch partielle, wahrheitsgetreue Schlussfolgerungstrajektorien einfügt. Im Gegensatz zur Bereitstellung vollständiger Lösungen lenkt Inpainting die Exploration in vielversprechende Trajektorienräume, während die selbst generierten Schlussfolgerungen beibehalten werden, wodurch eine Brücke zwischen überwachtem Feinabstimmen und Reinforcement Learning geschlagen wird. Wir wenden IGPO auf gruppenbasierte Optimierungsverfahren wie GRPO an, bei denen Explorationsfehler zu null Vorteilen und Gradienten führen. IGPO stellt sinnvolle Gradienten wieder her und verbessert gleichzeitig die Proben-Effizienz. Zudem schlagen wir ein überwachtes Feinabstimmen auf synthetisch umgeschriebenen, präzisen Schlussfolgerungstrajektorien vor, die besser an die Generierungsstrategien von dLLMs angepasst sind. In Kombination mit weiteren Techniken wie entropiebasiertem Filtern erzielt unser Trainingsrezept erhebliche Fortschritte auf drei mathematischen Benchmarks – GSM8K, Math500 und AMC – und erreicht neue SOTA-Ergebnisse für voll-attentive maskierte dLLMs.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.