HallusionBench: 대형 시각-언어 모델에서 얽힌 언어 환각과 시각적 환영을 위한 고급 진단 키트

우리는 이미지-문맥 추론 평가를 위한 포괄적인 벤치마크인 HallusionBench를 소개합니다. 이 벤치마크는 GPT-4V(Vision), Gemini Pro Vision, Claude 3, LLaVA-1.5와 같은 고급 대형 시각-언어 모델(LVLM)들이 세부적인 이해와 해석을 강조함으로써 큰 도전에 직면하도록 설계되었습니다. HallusionBench는 인간 전문가들이 정교하게 제작한 346개의 이미지와 1129개의 질문으로 구성되어 있습니다. 우리는 이 시각적 질문들을 위해 통제 집단을 설정하기 위한 새로운 구조를 도입하였습니다. 이 구조는 모델들의 응답 경향, 논리 일관성, 그리고 다양한 실패 모드를 양적으로 분석할 수 있게 합니다. HallusionBench에서의 평가에서 우리는 15개의 다른 모델들을 벤치마킹하였으며, 최신 기술인 GPT-4V가 31.42%의 질문 쌍 정확도를 달성한 것을 확인하였습니다. 특히, 평가된 모든 다른 모델들은 16% 미만의 정확도를 보였습니다. 또한 우리의 분석은 언어 환각과 시각 환각을 포함한 관찰된 실패 모드들을 강조하는 데 그치지 않고 이러한 함정에 대한 이해를 깊게 하였습니다. HallusionBench 내에서 수행된 포괄적인 사례 연구들은 LVLMs에서 환각과 착시의 문제점을 조명하였습니다. 이러한 통찰력을 바탕으로 우리는 미래 개선을 위한 잠재적인 방향성을 제안합니다. 벤치마크와 코드베이스는 https://github.com/tianyi-lab/HallusionBench에서 접근할 수 있습니다.