vor 13 Tagen

Inpainting-gestützte Politik-Optimierung für Diffusions-Größensprachmodelle

Siyan Zhao Mengchen Liu Jing Huang Miao Liu Chenyu Wang Bo Liu Yuandong Tian Guan Pang Sean Bell Aditya Grover

Abstract

Maskierte Diffusions-Größensprachmodelle (dLLMs) etablieren sich als vielversprechende Alternativen zu autoregressiven LLMs und bieten wettbewerbsfähige Leistungsfähigkeit, wobei sie zudem einzigartige Generierungsfähigkeiten wie Inpainting ermöglichen. Wir untersuchen, wie Inpainting die Gestaltung von Reinforcement-Learning-(RL)-Algorithmen für dLLMs beeinflussen kann. Die Anpassung von LLMs an das Reinforcement Learning stößt auf die Herausforderung der Exploration: seltene Belohnungssignale und Verschwendung von Proben, wenn Modelle nicht in der Lage sind, korrekte Lösungen zu finden. Während diese Ineffizienz LLMs allgemein betrifft, bietet die dLLM-Struktur eine besondere Chance – ihre Fähigkeit zum Inpainting kann die Exploration leiten. Wir stellen IGPO (Inpainting-Guided Policy Optimization) vor, einen RL-Framework, der während des Online-Samplings strategisch partielle, wahrheitsgetreue Schlussfolgerungstrajektorien einfügt. Im Gegensatz zur Bereitstellung vollständiger Lösungen lenkt Inpainting die Exploration in vielversprechende Trajektorienräume, während die selbst generierten Schlussfolgerungen beibehalten werden, wodurch eine Brücke zwischen überwachtem Feinabstimmen und Reinforcement Learning geschlagen wird. Wir wenden IGPO auf gruppenbasierte Optimierungsverfahren wie GRPO an, bei denen Explorationsfehler zu null Vorteilen und Gradienten führen. IGPO stellt sinnvolle Gradienten wieder her und verbessert gleichzeitig die Proben-Effizienz. Zudem schlagen wir ein überwachtes Feinabstimmen auf synthetisch umgeschriebenen, präzisen Schlussfolgerungstrajektorien vor, die besser an die Generierungsstrategien von dLLMs angepasst sind. In Kombination mit weiteren Techniken wie entropiebasiertem Filtern erzielt unser Trainingsrezept erhebliche Fortschritte auf drei mathematischen Benchmarks – GSM8K, Math500 und AMC – und erreicht neue SOTA-Ergebnisse für voll-attentive maskierte dLLMs.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Inpainting-gestützte Politik-Optimierung für Diffusions-Größensprachmodelle

Siyan Zhao Mengchen Liu Jing Huang Miao Liu Chenyu Wang Bo Liu Yuandong Tian Guan Pang Sean Bell Aditya Grover1 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Siyan Zhao Mengchen Liu Jing Huang Miao Liu Chenyu Wang Bo Liu Yuandong Tian Guan Pang Sean Bell Aditya Grover