InstructBLIP: 지시어 조정을 통한 일반적인 시각-언어 모델로의 진전

대규모 사전 학습과 지시문 조정은 광범위한 역량을 가진 일반 목적 언어 모델 생성에 성공적이었습니다. 그러나 추가적인 시각적 입력으로 인해 풍부한 입력 분포와 다양한 작업이 발생하기 때문에 일반 목적 시각-언어 모델을 구축하는 것은 어려움을 겪고 있습니다. 비록 시각-언어 사전 학습이 널리 연구되었지만, 시각-언어 지시문 조정은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 사전 학습된 BLIP-2 모델을 기반으로 한 시각-언어 지시문 조정에 대한 체계적이고 포괄적인 연구를 수행합니다. 우리는 다양한 작업과 역량을 포함하는 26개의 공개 데이터셋을 수집하여 이를 지시문 조정 형식으로 변환하였습니다. 또한, 주어진 지시문에 맞게 정보가 풍부한 특징을 추출하는 지시문 인식 쿼리 트랜스포머(Query Transformer)를 소개합니다. 13개의 내부 데이터셋에서 학습된 InstructBLIP는 모든 13개의 외부 데이터셋에서 최신 수준의 제로샷 성능을 달성하며, BLIP-2와 더 큰 Flamingo 모델보다 크게 우수한 성능을 보입니다. 우리의 모델들은 개별 하류 작업(예: 이미지 문맥이 있는 ScienceQA 질문에서 90.7%의 정확도)에서 미세 조정(finetuning)할 때에도 최신 수준의 성능을 이룹니다. 또한, InstructBLIP가 동시 다중모달 모델들보다 우수한 점들을 질적으로 입증하였습니다. 모든 InstructBLIP 모델은 https://github.com/salesforce/LAVIS/tree/main/projects/instructblip 에서 오픈 소스로 제공됩니다.