vor 4 Tagen

MMR1: Verbesserung multimodaler Schlussfolgerung durch varianzbehaftetes Sampling und offene Ressourcen

Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu

Details der Forschungsarbeit anzeigen View Code

MMR1: Verbesserung multimodaler Schlussfolgerung durch varianzbehaftetes Sampling und offene Ressourcen

Abstract

Große multimodale Schlussfolgerungsmodelle haben rasante Fortschritte erzielt, doch ihre Weiterentwicklung wird durch zwei zentrale Einschränkungen gebremst: dem Fehlen offener, großskaliger, hochwertiger Daten mit langen Ketten von Gedankengängen (long chain-of-thought, CoT) sowie der Instabilität von Verstärkungslernverfahren (Reinforcement Learning, RL) im Nachtraining. Die Gruppen-Relative Policy Optimization (GRPO), der etablierte Rahmen für die RL-Feinabstimmung, neigt bei geringer Belohnungsvarianz zu Gradientenverflachung, was die Optimierungssignale abschwächt und die Konvergenz beeinträchtigt. Diese Arbeit leistet drei Beiträge: (1) Wir stellen Variance-Aware Sampling (VAS) vor, eine datengestützte Auswahlstrategie, die durch den Variance-Promotion-Score (VPS) geleitet wird und sowohl die Ergebnisvarianz als auch die Trajektorien-Diversität berücksichtigt, um die Belohnungsvarianz zu erhöhen und die Stabilität der Policy-Optimierung zu verbessern. (2) Wir veröffentlichen großskalare, sorgfältig kuratierte Ressourcen mit etwa 1,6 Millionen langen CoT-Daten für den Initialzustand (cold-start) und etwa 15.000 RL-FAQ-Paaren, die gezielt auf Qualität, Schwierigkeitsgrad und Diversität abgestimmt sind, zusammen mit einem vollständig reproduzierbaren, end-to-end-Trainingscodebase. (3) Wir stellen eine Familie multimodaler Schlussfolgerungsmodelle in mehreren Skalen als Open Source bereit und etablieren damit standardisierte Benchmarks für die Forschungsgemeinschaft. Experimente an mathematischen Schlussfolgerungsbenchmarks belegen die Wirksamkeit sowohl der kuratierten Daten als auch des vorgeschlagenen VAS-Ansatzes. Umfassende Ablationsstudien und Analysen liefern zusätzliche Einsichten in die Rolle jedes einzelnen Komponenten. Darüber hinaus beweisen wir theoretisch, dass die Belohnungsvarianz eine untere Schranke für die erwartete Größe des Policy-Gradienten darstellt, wobei VAS eine praktikable Mechanik zur Realisierung dieser Garantie darstellt. Unser Code, die Daten und die Modellcheckpoint-Dateien sind unter https://github.com/LengSicong/MMR1 verfügbar.