2달 전
BLIP: 언어-이미지 사전학습 부트스트래핑을 통한 통합적 시각-언어 이해 및 생성
Li, Junnan ; Li, Dongxu ; Xiong, Caiming ; Hoi, Steven

초록
비전-언어 사전 학습(Vision-Language Pre-training, VLP)은 많은 비전-언어 작업의 성능을 향상시켰습니다. 그러나 대부분의 기존 사전 학습 모델은 이해 기반 작업이나 생성 기반 작업 중 한 가지에서만 뛰어납니다. 또한, 성능 개선은 주로 웹에서 수집된 노이즈가 있는 이미지-텍스트 쌍을 사용하여 데이터셋을 확장함으로써 이루어졌는데, 이는 최적의 감독 자료가 아닙니다. 본 논문에서는 비전-언어 이해와 생성 작업 모두에 유연하게 전이할 수 있는 새로운 VLP 프레임워크인 BLIP를 제안합니다. BLIP는 캡션 부트스트래핑(captions bootstrapping)을 통해 노이즈가 있는 웹 데이터를 효과적으로 활용합니다. 여기서 캡셔너(captioner)는 합성 캡션을 생성하고 필터(filter)는 노이즈가 있는 캡션을 제거합니다. 우리는 이미지-텍스트 검색(평균 Recall@1 +2.7%), 이미지 캡셔닝(CIDEr +2.8%), 그리고 시각 질문 응답(VQA +1.6% VQA 점수) 등 다양한 비전-언어 작업에서 최고 수준의 결과를 달성했습니다. BLIP는 영상-언어 작업으로 직접 전이될 때에도 강한 일반화 능력을 보여주며, 제로샷 방식에서도 우수한 성능을 발휘합니다. 코드, 모델 및 데이터셋은 https://github.com/salesforce/BLIP에서 제공됩니다.