2달 전

Inst-IT: 명시적 시각 프롬프트 지시 조정을 통한 다중 모달 인스턴스 이해 향상

Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
Inst-IT: 명시적 시각 프롬프트 지시 조정을 통한 다중 모달 인스턴스 이해 향상
초록

대형 다중 모드 모델(Large Multimodal Models, LMMs)은 지시어 조정(instruction tuning)의 발전에 따라 상당한 진전을 이루었습니다. 그러나 기존 모델들은 이미지와 비디오를 전반적으로 이해하는 데는 성공적이지만, 세부적인 이해와 정렬이 필요한 인스턴스 수준의 이해(instance-level understanding)에서는 여전히 어려움을 겪고 있습니다. 인스턴스 수준의 이해는 우리가 가장 관심 있는 특정 요소에 초점을 맞추기 때문에 중요합니다. 다행히도, 기존 연구들은 최신 LMMs가 명시적인 시각적 힌트(explicit visual cues)가 제공될 때 강력한 인스턴스 이해 능력을 보임을 발견하였습니다. 이 연구 결과에 영감을 받아, 우리는 GPT-4o를 활용하여 이미지와 비디오에서 인스턴스 수준 정보를 추출하기 위한 명시적인 시각적 프롬프팅(explicit visual prompting)을 사용하는 자동 주석 생성 파이프라인(automated annotation pipeline)을 소개합니다. 이 파이프라인을 바탕으로, 우리는 명시적인 시각적 프롬프팅 지시어 조정(explicit visual prompt Instruction Tuning)을 통해 LMMs의 인스턴스 이해 능력을 향상시키는 해결책인 Inst-IT를 제안하였습니다. Inst-IT는 다중 모드 인스턴스 수준 이해를 진단하기 위한 벤치마크, 대규모 지시어 조정 데이터셋, 그리고 기존 LMMs의 공간-시간적 인스턴스 이해 능력을 효과적으로 향상시키기 위한 연속적인 지시어 조정 학습 패러다임으로 구성되어 있습니다. 실험 결과에 따르면, Inst-IT의 도입으로 우리의 모델들이 Inst-IT 벤치에서 뛰어난 성능을 보이는 것은 물론 다양한 일반적인 이미지 및 비디오 이해 벤치마크에서도 크게 개선된 것으로 나타났습니다. 이는 우리의 데이터셋이 단순히 인스턴스 수준의 이해를 강화할 뿐만 아니라 일반적인 이미지 및 비디오 이해 능력 전체를 더욱 튼튼하게 한다는 것을 입증합니다.

Inst-IT: 명시적 시각 프롬프트 지시 조정을 통한 다중 모달 인스턴스 이해 향상 | 최신 연구 논문 | HyperAI초신경