Command Palette
Search for a command to run...
Richtungsorientierte Reasoning-Injektion zur Feinabstimmung von MLLMs
Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu
Abstract
Multimodale große Sprachmodelle (MLLMs) entwickeln sich rasant weiter, ihre Schlussfolgerungsfähigkeit bleibt jedoch oft hinter jener starker reiner Text-Modelle zurück. Bisherige Ansätze, diese Lücke zu schließen, basieren entweder auf überwachtem Feintuning an großen multimodalen Schlussfolgerungsdatensätzen oder auf Verstärkendem Lernen – beide Ansätze sind ressourcenintensiv. Eine vielversprechende Alternative ist das Modellzusammenführen, das Parameter zwischen modellbasierten, schlussfolgerungsfähigen LLMs und multimodalen Varianten interpoliert. Unser Analyse zeigt jedoch, dass ein naives Zusammenführen nicht zwangsläufig ein „Kostenloses Mahl“ ist: Die Wirksamkeit variiert erheblich zwischen Modellfamilien, wobei einige (z. B. LLaVA, Idefics) profitieren, während andere (z. B. Qwen) eine Leistungsverschlechterung erleiden. Um dies zu beheben, schlagen wir DRIFT (Directional Reasoning Injection for Fine-Tuning) für MLLMs vor, eine leichte Methode, die Schlussfolgerungswissen im Gradientenraum überträgt, ohne die multimodale Ausrichtung zu destabilisieren. DRIFT berechnet im Voraus eine Schlussfolgerungsvorwissen als Parameterraum-Differenz zwischen Schlussfolgerungs- und multimodalen Varianten und nutzt diese, um während des multimodalen Feintunings die Gradienten zu beeinflussen. Dieser Ansatz bewahrt die Einfachheit herkömmlicher überwachter Feintuning-Pipelines und ermöglicht gleichzeitig eine effiziente Übertragung von Schlussfolgerungsfähigkeiten. Umfangreiche Experimente an multimodalen Schlussfolgerungsbewertungsbögen, darunter MathVista und MathVerse, zeigen, dass DRIFT die Schlussfolgerungskapazität konsistent über naives Zusammenführen und überwachtes Feintuning hinaus verbessert und gleichzeitig die Leistung von ressourcenintensiven Methoden bei einem Bruchteil der Kosten erreicht oder übertreffen kann.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.