Command Palette
Search for a command to run...
다중모달 대규모 언어 모델을 위한 시각적 표현 정렬
다중모달 대규모 언어 모델을 위한 시각적 표현 정렬
초록
시각 지시 조정(visual instruction tuning)을 통해 훈련된 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 다양한 작업에서 뛰어난 성능을 달성하고 있으나, 객체 수세기나 공간적 추론과 같은 시각 중심 작업에서는 여전히 한계를 보이고 있다. 본 연구에서는 이러한 성능 격차를 주로 텍스트 중심의 감독 방식에 기인한다고 보며, 이는 시각 경로에 대한 간접적인 지침만 제공함으로써 MLLMs가 훈련 과정에서 세부적인 시각 정보를 무시하게 만든다고 분석한다. 본 논문에서는 사전 훈련된 시각 기반 모델(Vision Foundation Models, VFMs)의 내부 시각 표현과 MLLMs의 내부 시각 표현을 일치시키는 간단하면서도 효과적인 정규화 전략인 VIsual Representation ALignment (VIRAL)을 제안한다. 본 전략은 이러한 일치를 명시적으로 강제함으로써, 모델이 입력 시각 인코더로부터 중요한 시각 정보를 유지하는 동시에 VFMs로부터 추가적인 시각 지식을 보완할 수 있도록 한다. 이를 통해 복잡한 시각 입력에 대한 추론 능력이 향상된다. 실험 결과, 널리 사용되는 다중모달 벤치마크에서 모든 작업에 걸쳐 일관된 성능 향상이 확인되었다. 더불어, 본 프레임워크의 핵심 설계 선택 사항을 검증하기 위해 철저한 제거 실험(ablation studies)를 수행하였다. 본 연구는 단순한 발견이지만, MLLMs 훈련 시 시각 정보를 효과적으로 통합하는 데 중요한 방향성을 제시한다고 믿는다.