지시 기반 시각 마스킹

현대 대규모 언어 모델(LLM)에서 지시어 따르기(instruction following)는 핵심적인 요소이다. 그러나 다중모달 환경으로 확장될 때, 특정 텍스트 지시어와 이미지의 특정 지역 간의 일치성 부족 문제에 자주 직면하게 된다. 더 정확하고 세밀한 다중모달 지시어 따르기를 달성하기 위해, 본 연구에서는 다양한 다중모달 모델(예: LMM 및 로봇 모델)과 호환 가능한 유연한 시각적 기반 모델인 지시어 유도 시각 마스킹(Instructioin-guided Visual Masking, IVM)을 제안한다. IVM은 지시어와 관련 없는 영역에 시각 마스크를 생성함으로써, 다중모달 모델이 작업에 관련된 이미지 영역에 효과적으로 집중할 수 있도록 하여 복잡한 지시어와의 정확한 일치를 가능하게 한다. 구체적으로, 시각 마스크 생성을 위한 데이터 생성 파이프라인을 설계하였으며, 100만 개의 이미지-지시어 쌍을 포함하는 IVM-Mix-1M 데이터셋을 구축하였다. 또한, 고품질 데이터 샘플을 우선적으로 학습하는 데 중점을 둔 새로운 학습 기법인 판별기 가중 감독 학습(Discriminator Weighted Supervised Learning, DWSL)을 도입하였다. 일반적인 다중모달 작업(VQA 및 몸체적 로봇 제어 등)에 대한 실험 결과를 통해 IVM의 유연성과 효과성을 입증하였으며, 플러그 앤 플레이(Plug-and-play) 도구로서 다양한 다중모달 모델의 성능을 크게 향상시켜 도전적인 다중모달 벤치마크에서 새로운 최고 성능(SOTA)을 달성하였다. 코드, 모델 및 데이터는 https://github.com/2toinf/IVM 에서 공개된다.