Command Palette
Search for a command to run...
Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu
초록
다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 급속도로 발전하고 있으나, 그 추론 능력은 강력한 텍스트 중심 모델에 비해 여전히 뒤처지는 경향이 있다. 이 격차를 메우기 위한 기존 방법들은 대규모 다중모달 추론 데이터를 기반으로 한 감독하에의 미세조정(supervised fine-tuning) 또는 강화학습을 활용하는데, 이는 모두 막대한 자원을 소모한다. 이에 대한 유망한 대안으로 모델 병합(model merging)이 제안되고 있다. 이는 추론 능력이 향상된 LLM과 다중모달 버전 간의 파라미터를 보간하는 방식으로, 추론 지식을 효율적으로 전이할 수 있다. 그러나 우리의 분석 결과에 따르면, 단순한 병합은 항상 '무료 점심'이 되는 것은 아니다. 모델 패밀리에 따라 성능 향상 정도가 극명하게 달라지며, 일부 모델(예: LLaVA, Idefics)은 이점이 있지만, 다른 모델(예: Qwen)은 성능 저하를 겪는다. 이를 해결하기 위해 본 연구는 미세조정을 위한 방향성 있는 추론 주입(Directional Reasoning Injection for Fine-Tuning, DRIFT)을 제안한다. DRIFT는 다중모달 정합성(multimodal alignment)을 해치지 않으면서, 기울기 공간(gradient space)을 통해 추론 지식을 전이하는 경량화된 방법이다. DRIFT는 추론용 모델과 다중모달 모델 간의 파라미터 공간 차이를 사전에 계산하여 추론 사전지식(prior)으로 정의한 후, 다중모달 미세조정 과정에서 이 사전지식을 기울기 편향(bias)으로 활용한다. 이 방식은 기존 감독하에의 미세조정 파이프라인의 간결함을 유지하면서도, 효율적인 추론 지식 전이를 가능하게 한다. MathVista와 MathVerse를 포함한 다양한 다중모달 추론 벤치마크에서 실시한 광범위한 실험 결과, DRIFT는 단순 병합 및 감독하에의 미세조정에 비해 일관되게 추론 성능을 향상시키며, 자원 소모가 훨씬 적은 비용으로 기존의 고비용 학습 기법을 상회하거나 동등하게 성능을 달성함을 입증했다.