Command Palette
Search for a command to run...
Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu
要約
マルチモーダル大規模言語モデル(MLLMs)は急速に進展しているが、その推論能力は強力なテキスト専用モデルに比べて依然として遅れをとっている。このギャップを埋める既存の手法は、大規模なマルチモーダル推論データを用いた教師あり微調整(supervised fine-tuning)や強化学習に依存しており、いずれもリソースを大量に要する。これに対して有望な代替手法として、推論能力を強化したLLMとマルチモーダル版のモデル間でパラメータを補間する「モデルマージ(model merging)」が挙げられる。しかし、本研究の分析結果から、単純なマージは必ずしも「無料のランチ」ではないことが明らかになった。モデルファミリーによって効果が著しく異なり、一部(例:LLaVA、Idefics)は恩恵を受ける一方で、他(例:Qwen)では性能の低下が生じる場合がある。この課題に対処するため、本研究では「微調整における方向性推論注入法(Directional Reasoning Injection for Fine-Tuning, DRIFT)」を提案する。DRIFTは、マルチモーダルの整合性を損なうことなく、勾配空間内に推論知識を効率的に転送する軽量な手法である。具体的には、推論用モデルとマルチモーダルモデルのパラメータ空間上の差分として事前計算された推論事前知識(reasoning prior)を用い、マルチモーダル微調整の際の勾配を偏らせる。このアプローチは、従来の教師あり微調整のパイプラインの単純さを保ちつつ、効率的な推論能力の転送を可能にする。MathVistaやMathVerseを含む多様なマルチモーダル推論ベンチマークにおける広範な実験の結果、DRIFTは単純なマージや教師あり微調整よりも一貫して推論性能を向上させ、かつ従来の高コストな学習手法と同等または上回る性能を、その数分の1のコストで達成できることを示した。