Command Palette

Search for a command to run...

20일 전

모달 간의 충돌 시: 단모달 추론 불확실성이 MLLM에서 선호 동역학을 어떻게 지배하는가

Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

모달 간의 충돌 시: 단모달 추론 불확실성이 MLLM에서 선호 동역학을 어떻게 지배하는가

초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 서로 모순되는 정보를 제공하는 다양한 모달리티 간의 갈등을 해결해야 하며, 이 과정을 우리는 '모달리티 따름'(modality following)이라고 정의한다. 기존 연구는 이 행동을 단순한 데이터셋 수준의 통계치로만 측정해 왔으며, 모델이 단일모달 추론에 대한 자신감이 미치는 영향을 간과해 왔다. 본 논문에서는 모달리티 따름을 두 가지 핵심 요인으로 분해하는 새로운 프레임워크를 제안한다. 첫째는 상대적 추론 불확실성(단일모달 예측 간의 사례별 자신감 격차)이며, 둘째는 본질적 모달리티 선호도(불확실성이 균형을 이룰 때 모델이 보이는 안정적인 편향)이다. 이 프레임워크를 검증하기 위해, 시각적 입력과 텍스트 입력의 추론 난이도를 체계적으로 조절할 수 있는 제어 가능한 데이터셋을 구축하였다. 엔트로피를 세밀한 불확실성 지표로 사용함으로써, 보편적인 법칙을 발견하였다. 즉, 모달리티의 상대적 불확실성이 증가할수록 그 모달리티를 따르는 확률은 단조 감소한다. 모델이 두 모달리티를 유사한 확률로 따르는 상대적 난이도 수준, 즉 '균형점'(balance point)에서, 모델의 본질적 선호도를 실용적인 지표로 제시할 수 있다. 기존의 매크로 수준의 비율과 달리, 이 지표는 단일모달 능력과 데이터셋의 편향 요인을 분리하여, 모달리티 편향을 보다 체계적이고 혼동이 적은 방식으로 특성화할 수 있다. 또한, 계층별 예측을 탐사함으로써, 진동 현상의 내부 메커니즘을 밝혀냈다. 균형점 근처의 모호한 영역에서는 모델이 계층 간에 모달리티를 오가며 진동하는 모습을 보이며, 이는 외부에서 관측된 결정의 미진함을 설명한다. 종합적으로, 본 연구는 상대적 불확실성과 본질적 선호도가 다중모달 갈등 정보를 해결하는 MLLM의 두 핵심 원리임을 입증하였으며, 갈등 정보 처리에 대한 정량적 프레임워크와 메커니즘적 통찰을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
모달 간의 충돌 시: 단모달 추론 불확실성이 MLLM에서 선호 동역학을 어떻게 지배하는가 | 연구 논문 | HyperAI초신경