2달 전

BLIP-2: 언어-이미지 사전학습을 냉동 이미지 인코더와 대형 언어 모델로 부트스트래핑하기

Li, Junnan ; Li, Dongxu ; Savarese, Silvio ; Hoi, Steven
BLIP-2: 언어-이미지 사전학습을 냉동 이미지 인코더와 대형 언어 모델로 부트스트래핑하기
초록

비전-언어 사전 학습의 비용은 대규모 모델의 엔드투엔드 학습으로 인해 점점 더 부담스러워지고 있습니다. 본 논문에서는 오프더셀프 동결된 사전 학습 이미지 인코더와 동결된 대형 언어 모델을 활용하여 비전-언어 사전 학습을 부트스트랩하는 일반적이고 효율적인 사전 학습 전략인 BLIP-2를 제안합니다. BLIP-2는 경량 쿼리 변환기(Lightweight Querying Transformer)를 통해 모달리티 간격을 연결하며, 이 쿼리 변환기는 두 단계로 사전 학습됩니다. 첫 번째 단계에서는 동결된 이미지 인코더에서 비전-언어 표현 학습을 부트스트랩합니다. 두 번째 단계에서는 동결된 언어 모델에서 비전-언어 생성 학습을 부트스트랩합니다. BLIP-2는 기존 방법보다 훨씬 적은 훈련 가능한 매개변수를 가지고 있음에도 불구하고 다양한 비전-언어 작업에서 최고 수준의 성능을 달성하였습니다. 예를 들어, 우리의 모델은 Flamingo80B보다 54배 적은 훈련 가능한 매개변수로 zero-shot VQAv2에서 8.7% 더 우수한 성능을 보였습니다. 또한, 자연어 지시사항을 따르는 zero-shot 이미지-텍스트 생성 능력이 나타나는 것을 보여주었습니다.

BLIP-2: 언어-이미지 사전학습을 냉동 이미지 인코더와 대형 언어 모델로 부트스트래핑하기 | 최신 연구 논문 | HyperAI초신경