이미지를 활용한 다중모달 추론: 기초, 방법, 그리고 미래의 전망

최근 다중 모드 추론(multimodal reasoning) 분야에서 텍스트 기반 사고 과정(Chain-of-Thought, CoT)이 크게 발전하였습니다. 이 패러다임은 모델이 언어 내에서 추론을 수행하는 방식으로, 비록 이 접근법이 텍스트 중심적이지만, 시각을 정적인 초기 맥락으로 취급하여 풍부한 지각 데이터와 이산적 상징적 사고 사이에 근본적인 '의미 차이(semantic gap)'를 만들어냅니다. 인간의 인지 과정은 종종 언어를 넘어서, 시각 정보를 동적인 정신 스케치패드로 활용합니다. 유사한 진화가 이제 인공지능(AI)에서도 일어나고 있으며, 이미지를 단순히 생각하는 모델에서 이미지를 실제로 활용하여 생각하는 모델로의 근본적인 패러다임 전환을 알리고 있습니다. 이 새로운 패러다임은 모델이 그들의 사고 과정의 중간 단계로 시각 정보를 활용함으로써, 시각을 수동적인 입력에서 동적이고 조작 가능한 인지 작업 공간으로 변화시키는 특성을 가지고 있습니다.본 조사에서는 이러한 지능의 진화를 세 가지 주요 단계를 통해 점차적으로 증가하는 인지 자율성의 궤도 위에서 그립니다: 외부 도구 탐색부터 프로그래밍적 조작, 그리고 내재적 상상까지. 이 빠르게 변화하는 분야를 체계화하기 위해, 본 조사는 네 가지 주요 기여점을 제시합니다. (1) 이미지를 활용하여 생각하는 패러다임과 그 세 단계 프레임워크의 기본 원칙을 설정합니다. (2) 각 단계를 대표하는 핵심 방법들을 포괄적으로 검토합니다. (3) 평가 벤치마크와 혁신적인 응용 분야의 중요한 현황을 분석합니다. (4) 주요 도전 과제들을 식별하고 미래 연구 방향을 제시합니다. 이러한 체계적인 개요 제공을 통해 우리는 더 강력하고 인간 중심적인 다중 모드 AI 연구를 위한 명확한 로드맵을 제시하고자 합니다.