11일 전
VinVL: 비전-언어 모델에서 시각적 표현의 재고
Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao

초록
이 논문은 시각-언어(VL) 작업을 위한 시각적 표현을 향상시키는 데 관한 체계적인 연구를 제시하며, 이미지에 대한 객체 중심의 표현을 제공할 수 있도록 개선된 객체 탐지 모델을 개발한다. 기존에 가장 널리 사용되는 \emph{하향식 및 상향식}(bottom-up and top-down) 모델 \cite{anderson2018bottom}과 비교해, 새로운 모델은 더 크며, VL 작업에 더 적합하도록 설계되었으며, 여러 공개된 주석이 달린 객체 탐지 데이터셋을 결합한 대규모 훈련 코퍼스로 사전 훈련되었다. 따라서 더 풍부한 시각적 객체와 개념의 표현을 생성할 수 있다. 기존의 VL 연구는 주로 시각-언어 융합 모델의 성능 향상에 집중하며, 객체 탐지 모델의 개선은 거의 고려하지 않았지만, 본 연구에서는 시각적 특징이 VL 모델에서 매우 중요한 역할을 함을 보여준다. 실험에서는 새로운 객체 탐지 모델이 생성한 시각적 특징을 Transformer 기반의 VL 융합 모델 \oscar \cite{li2020oscar}에 입력하고, 개선된 방법 \short\을 활용하여 VL 모델을 사전 훈련하고 다양한 하류 VL 작업에 대해 미세 조정한다. 실험 결과, 새로운 시각적 특징이 모든 VL 작업에서 성능을 크게 향상시켰으며, 7개의 공개 벤치마크에서 새로운 최고 성능(SOTA)을 달성하였다. 본 연구에서 개발한 새로운 객체 탐지 모델은 공개할 예정이다.