11일 전

지시 기반 시각 마스킹

Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan
지시 기반 시각 마스킹
초록

현대 대규모 언어 모델(LLM)에서 지시어 따르기(instruction following)는 핵심적인 요소이다. 그러나 다중모달 환경으로 확장될 때, 특정 텍스트 지시어와 이미지의 특정 지역 간의 일치성 부족 문제에 자주 직면하게 된다. 더 정확하고 세밀한 다중모달 지시어 따르기를 달성하기 위해, 본 연구에서는 다양한 다중모달 모델(예: LMM 및 로봇 모델)과 호환 가능한 유연한 시각적 기반 모델인 지시어 유도 시각 마스킹(Instructioin-guided Visual Masking, IVM)을 제안한다. IVM은 지시어와 관련 없는 영역에 시각 마스크를 생성함으로써, 다중모달 모델이 작업에 관련된 이미지 영역에 효과적으로 집중할 수 있도록 하여 복잡한 지시어와의 정확한 일치를 가능하게 한다. 구체적으로, 시각 마스크 생성을 위한 데이터 생성 파이프라인을 설계하였으며, 100만 개의 이미지-지시어 쌍을 포함하는 IVM-Mix-1M 데이터셋을 구축하였다. 또한, 고품질 데이터 샘플을 우선적으로 학습하는 데 중점을 둔 새로운 학습 기법인 판별기 가중 감독 학습(Discriminator Weighted Supervised Learning, DWSL)을 도입하였다. 일반적인 다중모달 작업(VQA 및 몸체적 로봇 제어 등)에 대한 실험 결과를 통해 IVM의 유연성과 효과성을 입증하였으며, 플러그 앤 플레이(Plug-and-play) 도구로서 다양한 다중모달 모델의 성능을 크게 향상시켜 도전적인 다중모달 벤치마크에서 새로운 최고 성능(SOTA)을 달성하였다. 코드, 모델 및 데이터는 https://github.com/2toinf/IVM 에서 공개된다.

지시 기반 시각 마스킹 | 최신 연구 논문 | HyperAI초신경