3달 전

MMICL: 다중 모달 인컨텍스트 학습을 통한 비전-언어 모델 강화

Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
MMICL: 다중 모달 인컨텍스트 학습을 통한 비전-언어 모델 강화
초록

딥러닝의 부흥 이후, 대규모 언어 모델(LLM)에 의해 강화된 시각-언어 모델(VLM)은 급격한 인기를 끌고 있다. 그러나 LLM은 컨텍스트 내 학습(in-context learning)을 통해 방대한 배경 지식과 작업 정보를 활용할 수 있는 반면, 대부분의 VLM은 여러 이미지를 포함한 복잡한 다중 모달 프롬프트를 이해하는 데 어려움을 겪고 있어, 하류 시각-언어 작업에서 효과성이 떨어지는 문제가 있다. 본 논문에서는 이러한 한계를 해결하기 위해 1) 다중 모달 컨텍스트 내 학습(MMICL)을 도입하여 VLM이 다중 모달 입력을 효율적으로 처리할 수 있도록 하는 새로운 접근법을 제안하고, 2) VLM의 컨텍스트 내 학습 능력을 강화하기 위한 새로운 컨텍스트 구성 방식을 제안하며, 3) 복잡한 다중 모달 프롬프트를 이해하는 능력을 향상시키기 위해 설계된 다중 모달 컨텍스트 내 학습(MIC) 데이터셋을 구축한다. 실험 결과, MMICL은 일반적인 시각-언어 작업 전반에서 새로운 최고 성능(Zero-shot)을 달성하였으며, 특히 MME 및 MMBench와 같은 복잡한 벤치마크에서 두드러진 성능을 보였다. 분석을 통해 MMICL이 복잡한 다중 모달 프롬프트 이해 문제를 효과적으로 해결하고 뛰어난 컨텍스트 내 학습 능력을 발현함을 확인하였다. 더불어, MMICL이 VLM에서 흔히 발생하는 언어 편향(language bias)을 성공적으로 완화함을 관찰하였으며, 이는 풍부한 텍스트 컨텍스트가 존재할 때 환각(hallucination)을 유발하는 주요 원인 중 하나이다. 본 연구의 코드, 데이터셋, 데이터셋 도구, 모델은 https://github.com/PKUnlp-icler/MIC 에서 공개되어 있다.