11일 전
GLIPv2: 로컬라이제이션과 비전-언어 이해의 통합
Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao

초록
우리는 물체 탐지, 인스턴스 세그멘테이션과 같은 로컬라이제이션 작업과, VQA, 이미지 캡셔닝과 같은 시각-언어(VL) 이해 작업을 모두 수행할 수 있는 기반 시각-언어(VL) 이해 모델인 GLIPv2를 제안한다. GLIPv2는 세 가지 사전 훈련 태스크를 통해 로컬라이제이션 사전 훈련과 시각-언어 사전 훈련(VLP)을 우아하게 통합한다. 이 세 가지 태스크는 각각 탐지 작업의 VL 재구성 형태인 표현 지정(phrase grounding), 새로운 영역-단어 수준의 대조 학습 태스크인 영역-단어 대조 학습(region-word contrastive learning), 그리고 마스킹 언어 모델링이다. 이러한 통합은 기존의 다단계 VLP 절차를 단순화할 뿐만 아니라, 로컬라이제이션 작업과 이해 작업 간에 상호 보완적 이점을 창출한다. 실험 결과, 하나의 GLIPv2 모델(모든 모델 가중치를 공유)이 다양한 로컬라이제이션 및 이해 작업에서 거의 최상의 성능(SoTA)을 달성함을 확인하였다. 또한 이 모델은 (1) 개방형 어휘(open-vocabulary) 물체 탐지 작업에서 강력한 제로샷 및 희소샷 적응 능력을 보이며, (2) VL 이해 작업에서 뛰어난 지정 능력(grounding capability)을 나타낸다. 코드는 https://github.com/microsoft/GLIP에서 공개될 예정이다.