3달 전

시각적 사고 프롬프팅: 다중모달 대규모 언어 모델에서 시각적 추론 정교화를 위한 접근

Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang
시각적 사고 프롬프팅: 다중모달 대규모 언어 모델에서 시각적 추론 정교화를 위한 접근
초록

최근 체인 오브 쓰ought(Chain-of-Thought, CoT) 및 관련 추론 기반 연구들의 발전으로, 대규모 언어 모델(Large Language Models, LLMs)의 복잡한 추론 과제에서의 성능이 크게 향상되었다. 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 발전에 따라, 이러한 모델이 복잡한 다중모달 추론 문제를 해결할 수 있는 능력을 강화하는 것은 핵심적인 연구 전선이다. 그러나 CoT에 다중모달 추론 과정을 통합하는 것은 아직 충분히 탐구되지 않은 분야이다. 본 연구에서는 이미지 오브 쓰ought(Image-of-Thought, IoT) 프롬프팅 방법을 제안한다. 이 방법은 MLLMs가 입력된 이미지와 질문에 기반하여 시각적 추론 과정을 단계적으로 추출하도록 돕는다. 구체적으로 IoT 프롬프팅은 입력 이미지와 질문에 따라 비주얼 정보 추출 작업을 자동으로 설계할 수 있으며, 각 단계에서 시각적 정보를 정제하면서 복잡한 시각적 추론 질문에 대한 답을 뒷받침하는 특정 시각적 추론 근거를 식별한다. 텍스트 기반 CoT 외에도 IoT는 시각적 추론과 텍스트 추론을 동시에 활용하여 MLLMs가 복잡한 다중모달 정보를 이해하는 데 기여한다. IoT 프롬프팅은 다양한 MLLMs에서 다양한 시각적 이해 과제에 대해 제로샷(Zero-shot) 시각적 추론 성능을 향상시켰으며, IoT 프롬프팅이 생성하는 단계적 시각적 특징 설명은 시각적 추론 과정을 명확히 드러내어 대규모 다중모달 모델의 인지적 과정을 분석하는 데 도움을 준다.