Command Palette
Search for a command to run...
Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

초록
다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 서로 모순되는 정보를 제공하는 다양한 모달리티 간의 갈등을 해결해야 하며, 이 과정을 우리는 '모달리티 따름'(modality following)이라고 정의한다. 기존 연구는 이 행동을 단순한 데이터셋 수준의 통계치로만 측정해 왔으며, 모델이 단일모달 추론에 대한 자신감이 미치는 영향을 간과해 왔다. 본 논문에서는 모달리티 따름을 두 가지 핵심 요인으로 분해하는 새로운 프레임워크를 제안한다. 첫째는 상대적 추론 불확실성(단일모달 예측 간의 사례별 자신감 격차)이며, 둘째는 본질적 모달리티 선호도(불확실성이 균형을 이룰 때 모델이 보이는 안정적인 편향)이다. 이 프레임워크를 검증하기 위해, 시각적 입력과 텍스트 입력의 추론 난이도를 체계적으로 조절할 수 있는 제어 가능한 데이터셋을 구축하였다. 엔트로피를 세밀한 불확실성 지표로 사용함으로써, 보편적인 법칙을 발견하였다. 즉, 모달리티의 상대적 불확실성이 증가할수록 그 모달리티를 따르는 확률은 단조 감소한다. 모델이 두 모달리티를 유사한 확률로 따르는 상대적 난이도 수준, 즉 '균형점'(balance point)에서, 모델의 본질적 선호도를 실용적인 지표로 제시할 수 있다. 기존의 매크로 수준의 비율과 달리, 이 지표는 단일모달 능력과 데이터셋의 편향 요인을 분리하여, 모달리티 편향을 보다 체계적이고 혼동이 적은 방식으로 특성화할 수 있다. 또한, 계층별 예측을 탐사함으로써, 진동 현상의 내부 메커니즘을 밝혀냈다. 균형점 근처의 모호한 영역에서는 모델이 계층 간에 모달리티를 오가며 진동하는 모습을 보이며, 이는 외부에서 관측된 결정의 미진함을 설명한다. 종합적으로, 본 연구는 상대적 불확실성과 본질적 선호도가 다중모달 갈등 정보를 해결하는 MLLM의 두 핵심 원리임을 입증하였으며, 갈등 정보 처리에 대한 정량적 프레임워크와 메커니즘적 통찰을 제시한다.