HyperAIHyperAI

Command Palette

Search for a command to run...

MMR1: Verbesserung multimodaler Schlussfolgerung durch varianzbehaftetes Sampling und offene Ressourcen

Zusammenfassung

Große multimodale Schlussfolgerungsmodelle haben rasante Fortschritte erzielt, doch ihre Weiterentwicklung wird durch zwei zentrale Einschränkungen gebremst: dem Fehlen offener, großskaliger, hochwertiger Daten mit langen Ketten von Gedankengängen (long chain-of-thought, CoT) sowie der Instabilität von Verstärkungslernverfahren (Reinforcement Learning, RL) im Nachtraining. Die Gruppen-Relative Policy Optimization (GRPO), der etablierte Rahmen für die RL-Feinabstimmung, neigt bei geringer Belohnungsvarianz zu Gradientenverflachung, was die Optimierungssignale abschwächt und die Konvergenz beeinträchtigt. Diese Arbeit leistet drei Beiträge: (1) Wir stellen Variance-Aware Sampling (VAS) vor, eine datengestützte Auswahlstrategie, die durch den Variance-Promotion-Score (VPS) geleitet wird und sowohl die Ergebnisvarianz als auch die Trajektorien-Diversität berücksichtigt, um die Belohnungsvarianz zu erhöhen und die Stabilität der Policy-Optimierung zu verbessern. (2) Wir veröffentlichen großskalare, sorgfältig kuratierte Ressourcen mit etwa 1,6 Millionen langen CoT-Daten für den Initialzustand (cold-start) und etwa 15.000 RL-FAQ-Paaren, die gezielt auf Qualität, Schwierigkeitsgrad und Diversität abgestimmt sind, zusammen mit einem vollständig reproduzierbaren, end-to-end-Trainingscodebase. (3) Wir stellen eine Familie multimodaler Schlussfolgerungsmodelle in mehreren Skalen als Open Source bereit und etablieren damit standardisierte Benchmarks für die Forschungsgemeinschaft. Experimente an mathematischen Schlussfolgerungsbenchmarks belegen die Wirksamkeit sowohl der kuratierten Daten als auch des vorgeschlagenen VAS-Ansatzes. Umfassende Ablationsstudien und Analysen liefern zusätzliche Einsichten in die Rolle jedes einzelnen Komponenten. Darüber hinaus beweisen wir theoretisch, dass die Belohnungsvarianz eine untere Schranke für die erwartete Größe des Policy-Gradienten darstellt, wobei VAS eine praktikable Mechanik zur Realisierung dieser Garantie darstellt. Unser Code, die Daten und die Modellcheckpoint-Dateien sind unter https://github.com/LengSicong/MMR1 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMR1: Verbesserung multimodaler Schlussfolgerung durch varianzbehaftetes Sampling und offene Ressourcen | Paper | HyperAI