AUTOHALLUSION: 비전-언어 모델을 위한 환각 벤치마크의 자동 생성

대형 시각-언어 모델(LVLMs)의 환각: 이미지 내의 특정 맥락 신호가 비정상적 또는 가상 객체에 대한 언어 모듈의 과도한 자신감과 잘못된 추론을 유발할 수 있다. 환각 현상을 조사하기 위해 몇 가지 벤치마크가 개발되었지만, 이들은 주로 일반화하기 어려운 수작업으로 만든 극단적인 사례에 의존하며, 이러한 벤치마크를微调可能会损害其有效性。为了克服这些限制,我们开发了第一个自动基准生成方法,AUTOHALLUSION,该方法利用几种主要策略来创建多样化的幻觉示例。它通过以下方式探测LVLMs中的语言模块以获取上下文线索,并使用这些线索合成图像:(1) 添加对上下文线索异常的对象;(2) 对于两个共现对象,保留一个并排除另一个;或 (3) 删除与上下文线索紧密相关的对象。然后,它生成基于图像的问题,这些问题的真实答案与语言模块的先验知识相矛盾。模型必须克服上下文偏差和干扰才能得出正确的答案,而错误或不一致的答案则表明存在幻觉。AUTOHALLUSION使我们能够以最低的成本创建新的基准测试,从而克服手工制作的基准测试的脆弱性。它还揭示了常见的失败模式和原因,为检测、避免或控制幻觉提供了关键见解。对顶级LVLMs(如GPT-4V(ision),Gemini Pro Vision,Claude 3以及LLaVA-1.5)的全面评估显示,在AUTOHALLUSION的合成数据集和真实世界数据集中,诱导幻觉的成功率分别为97.7%和98.7%,这为对抗幻觉的长期斗争铺平了道路。修正后的韩文翻译如下:대형 시각-언어 모델(LVLMs)은 환각을 일으킨다: 이미지 내의 특정 맥락 신호가 비정상적 또는 가설적인 객체에 대한 언어 모듈의 과도한 자신감과 잘못된 추론을 유발할 수 있다. 환각 현상을 조사하기 위해 몇 가지 벤치마크가 개발되었지만, 이들은 주로 일반화하기 어려운 수작업으로 만든 극단적인 사례에 의존하며, 이러한 벤치마크에서 미세조정(finetuning)하면 그 유효성이 손상될 수 있다. 이를 극복하기 위해 우리는 AUTOHALLUSION이라는 첫 번째 자동 벤치마크 생성 접근 방식을 개발하였다. 이 방법은 몇 가지 주요 전략을 활용하여 다양한 환각 예제를 생성한다. AUTOHALLUSION은 LVLMs의 언어 모듈에서 맥락 신호를 탐색하고, 이를 사용하여 이미지를 합성하는 데 다음과 같은 방법을 사용한다: (1) 맥락 신호와 부합하지 않는 객체를 추가하는 것; (2) 두 개의 동시 발생 객체 중 하나를 유지하면서 다른 하나를 제외하는 것; 또는 (3) 맥락 신호와 밀접하게 관련된 객체를 제거하는 것. 그런 다음, 실제 답변이 언어 모듈의 사전 지식과 상충되는 이미지 기반 질문들을 생성한다. 모델은 맥락 편향과 간섭을 극복해야 올바른 답변에 도달할 수 있으며, 잘못되거나 일관되지 않은 답변은 환각을 나타낸다. AUTOHALLUSION은 최소한의 비용으로 새로운 벤치마크를 생성할 수 있게 하여, 수작업으로 만든 벤치마크의 취약성을 극복한다. 또한 이는 일반적인 실패 패턴과 원인을 밝혀내며, 환각을 감지하거나 피하거나 통제하는 데 필요한 중요한 통찰력을 제공한다. GPT-4V(ision), Gemini Pro Vision, Claude 3 및 LLaVA-1.5와 같은 최고급 LVLMs에 대한 포괄적인 평가는 AUTOHALLUSION의 합성 데이터셋과 실제 데이터셋에서 각각 97.7%와 98.7%의 환각 유도 성공률을 보여주었으며, 이는 환각과 싸우는 장기적인 전투에 길을 열었다.