
초록
대규모 다중모달 모델은 주어진 시각 정보와 일치하지 않는 잘못된 응답을 생성하는 다중모달 환각(multimodal hallucination) 문제에 직면해 있다. 최근 연구들은 이러한 현상의 원인 중 하나로, 시각 인코더가 이미지에 적절히 기반을 두지 못하는 것이라고 추측하고 있다. 이 문제를 완화하기 위해 우리는 자가 피드백을 시각적 단서로 활용하는 새로운 접근법을 제안한다. 이러한 접근을 바탕으로, 우리는 다중모달 자가 피드백 지도 수정 모델인 Volcano를 도입한다. Volcano는 제공된 시각 정보를 바탕으로 초기 응답에 대해 자연어 형태의 피드백을 생성하고, 이 피드백을 활용해 자신의 초기 응답을 자가 수정한다. Volcano는 다중모달 환각을 효과적으로 감소시키며, MMHal-Bench, POPE, GAVIE에서 최신 기준(SOTA) 성능을 달성한다. 또한 일반적인 다중모달 능력에서도 향상되어 MM-Vet 및 MMBench에서 이전 모델들을 능가한다. 질적 분석을 통해 Volcano의 피드백이 초기 응답보다 이미지에 더 잘 기반을 두고 있음을 보여준다. 이는 Volcano가 피드백 생성을 통해 자체적으로 더 풍부한 시각 정보를 확보함으로써 환각을 자가 수정할 수 있음을 시사한다. 본 연구에서는 모델, 데이터, 코드를 공개하여 https://github.com/kaistAI/Volcano 에서 누구나 접근할 수 있도록 한다.