2달 전

CoCoT: 대조적 사고 연쇄 프롬프팅을 활용한 다중 이미지 입력을 가진 대형 다모달 모델

Zhang, Daoan ; Yang, Junming ; Lyu, Hanjia ; Jin, Zijian ; Yao, Yuan ; Chen, Mingkai ; Luo, Jiebo
CoCoT: 대조적 사고 연쇄 프롬프팅을 활용한 다중 이미지 입력을 가진 대형 다모달 모델
초록

인공 일반 지능(AGI)의 개발을 탐구할 때, 이러한 모델들이 다수의 이미지 입력에서 정보를 해석하고 처리하는 것이 중요한 과제입니다. 그러나 대형 다중모달 모델(LMMs)은 이러한 시나리오에서 두 가지 문제에 직면합니다: (1) 세부적인 인식 부족, 그리고 (2) 여러 이미지 간의 정보 혼합 경향. 우리는 먼저 LMMs가 다수의 입력 이미지를 처리할 때 세부적인 시각적 세부 사항을 인식하는 능력을 철저히 조사합니다. 연구는 두 가지 측면에 초점을 맞춥니다: 첫째, 이미지-이미지 매칭(다중모달 모델이 관련된 이미지를 효과적으로 추론하고 짝을 지을 수 있는지 평가하기 위함), 둘째, 다중이미지-텍스트 매칭(다중모달 모델이 상세한 이미지 정보를 정확하게 포착하고 요약할 수 있는지 평가하기 위함). 우리는 GPT-4V, Gemini, OpenFlamingo, MMICL 등 다양한 오픈 소스와 클로즈드 소스 대형 모델을 대상으로 평가를 수행합니다. 모델 성능을 향상시키기 위해, 우리는 다중입력 다중모달 모델 기반의 대조적 사고 체인(Contrastive Chain-of-Thought, CoCoT) 프롬프팅 접근법을 추가로 개발하였습니다. 이 방법은 LMMs가 여러 이미지 입력 사이의 유사점과 차이점을 비교하도록 요구하며, 이를 바탕으로 다중 이미지 입력에 대한 상세한 질문에 답하도록 모델들을 안내합니다. 실험 결과는 CoCoT가 대형 다중모달 모델의 다중 이미지 이해 능력을 향상시키는 데 효율적임을 입증해주고 있습니다.

CoCoT: 대조적 사고 연쇄 프롬프팅을 활용한 다중 이미지 입력을 가진 대형 다모달 모델 | 최신 연구 논문 | HyperAI초신경