vor 12 Tagen

Richtungsorientierte Reasoning-Injektion zur Feinabstimmung von MLLMs

Details der Forschungsarbeit anzeigen Code anzeigen

Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu

Abstract

Multimodale große Sprachmodelle (MLLMs) entwickeln sich rasant weiter, ihre Schlussfolgerungsfähigkeit bleibt jedoch oft hinter jener starker reiner Text-Modelle zurück. Bisherige Ansätze, diese Lücke zu schließen, basieren entweder auf überwachtem Feintuning an großen multimodalen Schlussfolgerungsdatensätzen oder auf Verstärkendem Lernen – beide Ansätze sind ressourcenintensiv. Eine vielversprechende Alternative ist das Modellzusammenführen, das Parameter zwischen modellbasierten, schlussfolgerungsfähigen LLMs und multimodalen Varianten interpoliert. Unser Analyse zeigt jedoch, dass ein naives Zusammenführen nicht zwangsläufig ein „Kostenloses Mahl“ ist: Die Wirksamkeit variiert erheblich zwischen Modellfamilien, wobei einige (z. B. LLaVA, Idefics) profitieren, während andere (z. B. Qwen) eine Leistungsverschlechterung erleiden. Um dies zu beheben, schlagen wir DRIFT (Directional Reasoning Injection for Fine-Tuning) für MLLMs vor, eine leichte Methode, die Schlussfolgerungswissen im Gradientenraum überträgt, ohne die multimodale Ausrichtung zu destabilisieren. DRIFT berechnet im Voraus eine Schlussfolgerungsvorwissen als Parameterraum-Differenz zwischen Schlussfolgerungs- und multimodalen Varianten und nutzt diese, um während des multimodalen Feintunings die Gradienten zu beeinflussen. Dieser Ansatz bewahrt die Einfachheit herkömmlicher überwachter Feintuning-Pipelines und ermöglicht gleichzeitig eine effiziente Übertragung von Schlussfolgerungsfähigkeiten. Umfangreiche Experimente an multimodalen Schlussfolgerungsbewertungsbögen, darunter MathVista und MathVerse, zeigen, dass DRIFT die Schlussfolgerungskapazität konsistent über naives Zusammenführen und überwachtes Feintuning hinaus verbessert und gleichzeitig die Leistung von ressourcenintensiven Methoden bei einem Bruchteil der Kosten erreicht oder übertreffen kann.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Richtungsorientierte Reasoning-Injektion zur Feinabstimmung von MLLMs

Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu

Abstract

KI mit KI entwickeln

Hyper Newsletters