vor 23 Tagen

MM-HELIX: Steigerung der multimodalen langkettigen reflektiven Schlussfolgerung durch eine ganzheitliche Plattform und adaptive hybride Politikoptimierung

Xiangyu Zhao Junming Lin Tianhao Liang Yifan Zhou Wenhao Chai Yuzhe Gu Weiyun Wang Kai Chen Gen Luo Wenwei Zhang

Abstract

Obwohl aktuelle Multimodale Große Sprachmodelle (MLLMs) bei Reasoning-Aufgaben wie Mathematik und Logik bereits beachtliche Leistungen erzielen, bleibt ihre Fähigkeit zu langkettigem reflektivem Reasoning – einer Voraussetzung für die Lösung komplexer realer Probleme – weitgehend unerforscht. In dieser Arbeit führen wir zunächst eine umfassende empirische Untersuchung durch, um diese Fähigkeit zu bewerten. Mit einem sorgfältig entworfenen Daten-Synthesemodell erstellen wir MM-HELIX, einen multimodalen Benchmark mit 1.260 Datensätzen aus 42 anspruchsvollen synthetischen Aufgaben, die iteratives Denken und Rückverfolgung erfordern. Die empirischen Ergebnisse auf diesem Benchmark zeigen, dass bestehende MLLMs erhebliche Leistungslücken im Bereich des langkettigen reflektiven Reasonings aufweisen. Um diese Limitation zu überwinden, generieren wir Post-Training-Daten und untersuchen zudem Lernparadigmen zur Nutzung solcher Daten. Zunächst entwickeln wir die Pipeline „Step-Elicited Response Generation“, um MM-HELIX-100K, eine große Datenmenge mit 100.000 hochwertigen, reflektiven Denkspuren für die Instruction-Tuning-Phase, zu erstellen. Da der herkömmliche Ansatz des Reinforcement Learning bei komplexen Aufgaben aufgrund spärlicher Belohnungssignale und katastrophaler Vergessensneigung nach Supervised Fine-Tuning versagt, schlagen wir Adaptive Hybrid Policy Optimization (AHPO) vor – eine neuartige Trainingsstrategie, die offline-Supervision und online-Optimierung dynamisch in einer einzigen Phase vereint. Diese Strategie ermöglicht es dem Modell, aus Expertendaten zu lernen, wenn Belohnungen spärlich sind, und unabhängig zu explorieren, sobald es kompetent geworden ist. Angewandt auf die Basisversion Qwen2.5-VL-7B erreicht unsere Methode eine Steigerung der Genauigkeit um +18,6 % auf dem MM-HELIX-Benchmark und zeigt eine starke Generalisierbarkeit mit einer durchschnittlichen Leistungssteigerung um +5,7 % bei allgemeinen mathematischen und logischen Aufgaben. Unsere Arbeit zeigt, dass reflektives Reasoning in MLLMs effektiv gelernt und generalisiert werden kann, und eröffnet damit den Weg für die Entwicklung leistungsfähigerer MLLMs.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MM-HELIX: Steigerung der multimodalen langkettigen reflektiven Schlussfolgerung durch eine ganzheitliche Plattform und adaptive hybride Politikoptimierung

Xiangyu Zhao Junming Lin Tianhao Liang Yifan Zhou Wenhao Chai Yuzhe Gu Weiyun Wang Kai Chen Gen Luo Wenwei Zhang4 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Xiangyu Zhao Junming Lin Tianhao Liang Yifan Zhou Wenhao Chai Yuzhe Gu Weiyun Wang Kai Chen Gen Luo Wenwei Zhang