11일 전

구성적 추론을 위한 대규모 시각-언어 모델의 프롬프팅

Timothy Ossowski, Ming Jiang, Junjie Hu
구성적 추론을 위한 대규모 시각-언어 모델의 프롬프팅
초록

CLIP과 같은 비전-언어 모델은 텍스트와 이미지를 일치하는 임베딩 공간으로 인코딩하는 데 있어 놀라운 능력을 보여주며, 공통된 임베딩 공간 내에서 다중모달 데이터를 검색할 수 있게 했다. 그러나 이러한 임베딩 기반 모델은 최근에 제시된 Winoground 데이터셋에서 보여주는 성능과 같이, 유사한 시각-언어적 구성성(visual-linguistic compositionality)을 가진 이미지와 텍스트 간의 효과적인 매칭에 여전히 어려움을 겪고 있다. 본 논문에서는 이러한 한계가 두 가지 요인에서 기인한다고 주장한다. 첫째, 복잡한 다중모달 데이터에 대해 단일 벡터 표현을 사용하는 점이며, 둘째, 이러한 임베딩 기반 방법들에 단계적 사고(stepping reasoning)가 부재하다는 점이다. 이 문제를 해결하기 위해, 우리는 대규모 비전-언어 모델(GPT-4 등)을 활용해 이미지를 묘사하고 구성적 추론을 수행하도록 유도하는 새로운 생성형 방법을 탐색적으로 도입한다. 제안하는 방법은 Winoground 데이터셋에서 다른 임베딩 기반 방법들보다 우수한 성능을 보이며, 최적의 설명을 추가로 적용할 경우 최대 10%까지 정확도 향상을 달성한다.

구성적 추론을 위한 대규모 시각-언어 모델의 프롬프팅 | 최신 연구 논문 | HyperAI초신경