2달 전
MiniGPT-v2: 시각-언어 다중 작업 학습을 위한 통합 인터페이스로서의 대형 언어 모델
Jun Chen; Deyao Zhu; Xiaoqian Shen; Xiang Li; Zechun Liu; Pengchuan Zhang; Raghuraman Krishnamoorthi; Vikas Chandra; Yunyang Xiong; Mohamed Elhoseiny

초록
대형 언어 모델은 다양한 언어 관련 응용 프로그램의 일반 인터페이스로서 뛰어난 능력을 보여주었습니다. 이러한 동기를 바탕으로 우리는 이미지 설명, 시각적 질문 답변, 시각적 지칭 등 여러 시각-언어 작업을 위한 통합 인터페이스를 구축하는 것을 목표로 합니다. 이에 대한 도전 과제는 단일 모델을 사용하여 간단한 다중 모달 지시문을 통해 다양한 시각-언어 작업을 효과적으로 수행하는 것입니다. 이 목표를 달성하기 위해, 우리는 MiniGPT-v2라는 모델을 소개합니다. 이 모델은 다양한 시각-언어 작업을 더 잘 처리할 수 있는 통합 인터페이스로 활용될 수 있습니다. 우리는 모델 훈련 시 각기 다른 작업에 대해 고유 식별자를 사용하는 것을 제안합니다. 이러한 식별자는 우리 모델이 각 작업 지시문을 쉽게 구분하도록 돕고, 동시에 각 작업에 대한 모델 학습 효율성을 개선합니다. 3단계 훈련 후 실험 결과는 MiniGPT-v2가 다른 시각-언어 전문가 모델과 비교하여 많은 시각적 질문 답변 및 시각적 지칭 벤치마크에서 우수한 성능을 보임을 확인하였습니다. 우리의 모델과 코드는 https://minigpt-v2.github.io/ 에서 제공됩니다.