GPT4RoI: 관심 영역에 대한 대형 언어 모델의 지시 조정

시각 지시 조정(visual instruction tuning)은 이미지-텍스트 쌍을 사용하여 대형 언어 모델(LLM)에 일반적인 시각-언어 능력을 부여하는 데 성공했습니다. 그러나 지역-텍스트 쌍의 부족으로 인해, 이들 모델의 세부적인 다중 모달 이해 능력 발전이 제한되고 있습니다. 본 논문에서는 관심 영역(RoI, Region-of-Interest)을 지시문에 포함시키는 공간적 지시 조정(spatial instruction tuning) 방법을 제안합니다. LLM에 전송하기 전, 참조(reference)는 RoI 특성으로 대체되며, 언어 임베딩과 함께 시퀀스로 교차됩니다. 우리의 모델인 GPT4RoI는 7개의 지역-텍스트 쌍 데이터셋에서 훈련되어, 기존 이미지 수준 모델보다 탁월한 상호 작용 및 대화 경험을 제공합니다.(1) 언어를 넘어서의 상호 작용: 사용자는 언어뿐만 아니라 경계 상자를 그리는 방식으로 관심 영역의 참조 범위를 유연하게 조정할 수 있습니다.(2) 다양한 다중 모달 능력: GPT4RoI는 각 RoI 내의 다양한 속성 정보(예: 색상, 형태, 재질, 행동 등)를 추출할 수 있으며, 공통 감각(common sense)을 바탕으로 여러 RoI 간의 추론도 가능합니다. 시각적 상식 추론(VCR, Visual Commonsense Reasoning) 데이터셋에서 GPT4RoI는 81.6%의 놀라운 정확도를 달성하여 기존 모든 모델을 크게 앞섰으며(두 번째로 높은 성능은 75.6%), 거의 인간 수준의 성능(85.0%)에 근접하였습니다.코드와 모델은 https://github.com/jshilong/GPT4RoI에서 확인할 수 있습니다.