Command Palette
Search for a command to run...
MM-HELIX: Steigerung der multimodalen langkettigen reflektiven Schlussfolgerung durch eine ganzheitliche Plattform und adaptive hybride Politikoptimierung

Abstract
Obwohl aktuelle Multimodale Große Sprachmodelle (MLLMs) bei Reasoning-Aufgaben wie Mathematik und Logik bereits beachtliche Leistungen erzielen, bleibt ihre Fähigkeit zu langkettigem reflektivem Reasoning – einer Voraussetzung für die Lösung komplexer realer Probleme – weitgehend unerforscht. In dieser Arbeit führen wir zunächst eine umfassende empirische Untersuchung durch, um diese Fähigkeit zu bewerten. Mit einem sorgfältig entworfenen Daten-Synthesemodell erstellen wir MM-HELIX, einen multimodalen Benchmark mit 1.260 Datensätzen aus 42 anspruchsvollen synthetischen Aufgaben, die iteratives Denken und Rückverfolgung erfordern. Die empirischen Ergebnisse auf diesem Benchmark zeigen, dass bestehende MLLMs erhebliche Leistungslücken im Bereich des langkettigen reflektiven Reasonings aufweisen. Um diese Limitation zu überwinden, generieren wir Post-Training-Daten und untersuchen zudem Lernparadigmen zur Nutzung solcher Daten. Zunächst entwickeln wir die Pipeline „Step-Elicited Response Generation“, um MM-HELIX-100K, eine große Datenmenge mit 100.000 hochwertigen, reflektiven Denkspuren für die Instruction-Tuning-Phase, zu erstellen. Da der herkömmliche Ansatz des Reinforcement Learning bei komplexen Aufgaben aufgrund spärlicher Belohnungssignale und katastrophaler Vergessensneigung nach Supervised Fine-Tuning versagt, schlagen wir Adaptive Hybrid Policy Optimization (AHPO) vor – eine neuartige Trainingsstrategie, die offline-Supervision und online-Optimierung dynamisch in einer einzigen Phase vereint. Diese Strategie ermöglicht es dem Modell, aus Expertendaten zu lernen, wenn Belohnungen spärlich sind, und unabhängig zu explorieren, sobald es kompetent geworden ist. Angewandt auf die Basisversion Qwen2.5-VL-7B erreicht unsere Methode eine Steigerung der Genauigkeit um +18,6 % auf dem MM-HELIX-Benchmark und zeigt eine starke Generalisierbarkeit mit einer durchschnittlichen Leistungssteigerung um +5,7 % bei allgemeinen mathematischen und logischen Aufgaben. Unsere Arbeit zeigt, dass reflektives Reasoning in MLLMs effektiv gelernt und generalisiert werden kann, und eröffnet damit den Weg für die Entwicklung leistungsfähigerer MLLMs.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.