2달 전
언어 모델에서 다중모드 사고 체인 추론
Zhuosheng Zhang; Aston Zhang; Mu Li; Hai Zhao; George Karypis; Alex Smola

초록
대형 언어 모델(LLM)들은 사슬 추론(Chain-of-Thought, CoT) 프롬프팅을 활용하여 중간 추론 과정을 생성하고 이를 통해 답을 유추하는 방식으로 복잡한 추론 작업에서 뛰어난 성능을 보여주었습니다. 그러나 기존의 CoT 연구는 주로 언어 모달리티에 초점을 맞추고 있었습니다. 우리는 이 두 가지 모달리티를 언어(텍스트)와 시각(이미지)으로 나누고, 추론 과정 생성과 답 유추를 분리하는 두 단계 프레임워크를 제안합니다. 이를 통해 다중 모달 정보를 바탕으로 더 나은 추론 과정을 생성할 수 있으며, 이는 답 유추에 도움이 됩니다. ScienceQA 및 A-OKVQA 벤치마크 데이터셋에서의 실험 결과는 우리의 제안된 접근 방식의 효과성을 입증합니다. Multimodal-CoT를 사용함으로써, 10억 개 미만의 파라미터를 가진 우리의 모델은 ScienceQA 벤치마크에서 최고 수준의 성능을 달성했습니다. 우리의 분석은 Multimodal-CoT가 환영(hallucination) 현상을 완화하고 수렴 속도를 향상시키는 장점이 있음을 나타냅니다. 코드는 https://github.com/amazon-science/mm-cot 에서 공개적으로 이용 가능합니다.