2달 전

MiniGPT-v2: 시각-언어 다중 작업 학습을 위한 통합 인터페이스로서의 대형 언어 모델

Jun Chen; Deyao Zhu; Xiaoqian Shen; Xiang Li; Zechun Liu; Pengchuan Zhang; Raghuraman Krishnamoorthi; Vikas Chandra; Yunyang Xiong; Mohamed Elhoseiny
MiniGPT-v2: 시각-언어 다중 작업 학습을 위한 통합 인터페이스로서의 대형 언어 모델
초록

대형 언어 모델은 다양한 언어 관련 응용 프로그램의 일반 인터페이스로서 뛰어난 능력을 보여주었습니다. 이러한 동기를 바탕으로 우리는 이미지 설명, 시각적 질문 답변, 시각적 지칭 등 여러 시각-언어 작업을 위한 통합 인터페이스를 구축하는 것을 목표로 합니다. 이에 대한 도전 과제는 단일 모델을 사용하여 간단한 다중 모달 지시문을 통해 다양한 시각-언어 작업을 효과적으로 수행하는 것입니다. 이 목표를 달성하기 위해, 우리는 MiniGPT-v2라는 모델을 소개합니다. 이 모델은 다양한 시각-언어 작업을 더 잘 처리할 수 있는 통합 인터페이스로 활용될 수 있습니다. 우리는 모델 훈련 시 각기 다른 작업에 대해 고유 식별자를 사용하는 것을 제안합니다. 이러한 식별자는 우리 모델이 각 작업 지시문을 쉽게 구분하도록 돕고, 동시에 각 작업에 대한 모델 학습 효율성을 개선합니다. 3단계 훈련 후 실험 결과는 MiniGPT-v2가 다른 시각-언어 전문가 모델과 비교하여 많은 시각적 질문 답변 및 시각적 지칭 벤치마크에서 우수한 성능을 보임을 확인하였습니다. 우리의 모델과 코드는 https://minigpt-v2.github.io/ 에서 제공됩니다.