대규모 다중모달 모델에서 로버스트 지시 튜닝을 통한 환각 현상 완화

다양한 모달리티 작업에서 긍정적인 진전이 이루어지고 있음에도 불구하고, 현재의 대규모 다중 모달 모델(LMMs)은 관련 이미지와 인간의 지시사항과 일관되지 않은 오류 설명(허구적 생성)을 유발하기 쉬운 문제가 존재한다. 본 논문은 이 문제를 해결하기 위해, 대규모이며 다양한 시각적 지시사항을 포함한 최초의 데이터셋인 Large-scale Robust Visual (LRV)-Instruction을 제안한다. 본 데이터셋은 GPT-4를 활용해 생성한 총 40만 개의 시각적 지시사항을 포함하며, 개방형 지시사항과 답변을 수반하는 16개의 비전-언어 작업을 포괄한다. 기존 연구들이 주로 긍정적 지시 샘플에 초점을 맞추는 것과 달리, LRV-Instruction은 보다 강건한 시각적 지시사항 튜닝을 위해 긍정적 지시뿐만 아니라 부정적 지시도 포함하도록 설계되었다. 본 연구에서 제안하는 부정적 지시는 세 가지 의미 수준에서 설계되었다: (i) 존재하지 않는 객체 조작, (ii) 존재하는 객체 조작, (iii) 지식 조작. LMM이 생성하는 허구적 현상을 효율적으로 측정하기 위해, 본 연구는 인간 전문가 수준의 시각적 지시사항 튜닝 평가를 가능하게 하는 안정적인 방법인 GPT4-보조 시각적 지시사항 평가(GAVIE)를 제안한다. GAVIE는 인간이 레이블링한 정답 데이터가 필요 없으며, 다양한 지시 형식에 유연하게 적응할 수 있다. 우리는 LMM의 허구적 현상을 종합적으로 분석하기 위해 실험을 수행하였으며, 그 결과 기존의 LMM은 본 연구에서 제안한 부정적 지시사항, 특히 존재하는 객체 조작 및 지식 조작 지시사항을 제시받았을 때 상당한 허구적 현상을 보임을 확인하였다. 또한, LRV-Instruction을 기반으로 MiniGPT4와 mPLUG-Owl을 미세조정함으로써 허구적 현상을 효과적으로 완화할 수 있었으며, 기존 최고 수준의 방법들에 비해 여러 공개 데이터셋에서 성능이 향상됨을 확인하였다. 추가적으로, 학습 데이터 내 긍정적 및 부정적 샘플의 균형 잡힌 비율이 더 강건한 모델을 얻는 데 기여함을 관찰하였다. 코드와 데이터는 https://github.com/FuxiaoLiu/LRV-Instruction 에서 공개된다.