픽셀, 패턴, 하지만 시가 없다: 인간처럼 세상을 보다

다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)에서 인간처럼 인지하고 추론하는 능력을 달성하는 것은 인공지능 분야에서 여전히 중심적인 과제로 남아 있다. 최근 연구는 주로 MLLMs의 추론 능력을 향상시키는 데 집중되어 왔지만, 근본적인 질문은 여전히 남아 있다. 즉, 다중모달 대형 언어 모델은 인간처럼 세상을 진정으로 인지할 수 있는가? 본 논문은 추론에 대한 집중을 넘어 인지에 초점을 맞춘다. 이전 연구에서 주로 추론을 위한 벤치마크를 구축해 왔던 것과 달리, 우리는 인간이 직관적으로 처리하는 합성 이미지에 대한 MLLMs의 성능을 평가하는, 4가지 진단 과제로 구성된 '튜링 시험(Turing Eye Test, TET)'이라는 인지 중심의 벤치마크를 제시한다. 우리의 연구 결과는 현재 최첨단 MLLMs가 인간에게는 매우 단순한 인지 과제에서 심각한 실패를 보인다는 것을 드러낸다. 이전 벤치마크에서 효과적이었던 문맥 내 학습(contextual learning) 및 언어 백본(language backbone)에 대한 학습은 본 연구의 과제에서는 성능 향상에 실패하며, 시각 탑( vision tower)의 미세 조정(fine-tuning)이 빠른 적응을 가능하게 한다. 이는 우리의 벤치마크가 언어 백본의 지식과 추론 능력이 아닌 시각 탑의 일반화 능력에 도전을 제기한다는 것을 시사한다. 이는 현재 MLLMs와 인간의 인지 능력 사이에 존재하는 주요 격차이다. 본 논문에서는 TET 과제의 대표적 하위 집합을 공개하며, 향후 연구에서는 보다 다양한 과제와 방법을 도입하여 시각 일반화를 강화할 계획이다.