초록

대규모 다중모달 모델(LMMs)은 상당한 진전을 이루었지만, 여전히 주로 텍스트 중심이며 핵심 추론 매체로 언어에 의존하고 있다. 이로 인해 시각적인 요소가 주된 추론 작업을 처리하는 데 한계가 있다. 최근의 접근 방식들은 보조 이미지, 깊이 맵, 또는 이미지 클립을 사용해 중간 단계의 시각 정보를 감독함으로써 이 문제를 해결하려고 시도해왔다. 그러나 이러한 전략들은 ‘유용한’ 시각적 추상화가 어떤 모습이어야 하는지에 대해 제한적인 사전 지식(prior)을 강요하며, 높은 레이블링 비용을 수반하고, 다양한 작업 간 일반화 능력이 낮다는 문제를 안고 있다. 이 핵심적 한계를 극복하기 위해, 우리는 명시적 감독 없이도 LMM이 시각 추론 토큰을 자발적으로 탐지하고 활용할 수 있도록 훈련하는, 작업에 독립적인 메커니즘을 제안한다. 이러한 토큰들은 전역적으로 주목하고, 작업에 따라 적응적으로 이미지를 재인코딩함으로써, 수작업으로 설계된 감독 없이도 관련된 시각 정보를 효과적으로 추출할 수 있게 한다. 제안하는 방법은 직접적인 미세조정보다 우수한 성능을 보이며, 중간 추상화를 명확히 정의하기 어려운 경우에도 포함된 다양한 시각 중심 작업에서 최신 기술 수준의 성능을 달성한다. 또한 다중 작업 지시 조정(multi-task instruction tuning)에 대해서도 우수한 일반화 능력을 보여준다.

소스 PDF