15일 전

엔드 투 엔드 시각-언어 트랜스포머 학습에 대한 실증 연구

Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng
엔드 투 엔드 시각-언어 트랜스포머 학습에 대한 실증 연구
초록

시각-언어(Vision-and-Language, VL) 사전학습은 다양한 VL 하류 작업에서 매우 효과적임이 입증되었다. 최근 연구에서는 기존의 영역 특징 기반 방법에 비해 완전히 트랜스포머 기반의 VL 모델이 더 효율적임을 보여주었지만, 하류 작업에서의 성능이 종종 크게 저하되는 문제가 있다. 본 논문에서는 METER(Multimodal End-to-end TransformER)라는 다중모달 엔드투엔드 트랜스포머 프레임워크를 제안하며, 완전히 트랜스포머 기반의 VL 모델을 엔드투엔드 방식으로 설계하고 사전학습하는 방법을 탐구한다. 구체적으로, 시각 인코더(예: CLIP-ViT, Swin Transformer), 텍스트 인코더(예: RoBERTa, DeBERTa), 다중모달 융합 모듈(예: 병합 주의(Merged Attention) vs. 공유 주의(Co-Attention)), 아키텍처 설계(예: 인코더 전용 vs. 인코더-디코더), 사전학습 목표(예: 마스킹 이미지 모델링) 등 여러 차원에서 모델 설계를 분석한다. 우리는 포괄적인 실험을 수행하고 성능이 우수한 VL 트랜스포머 모델을 훈련하는 데 대한 통찰을 제시한다. METER는 사전학습에 단 400만 장의 이미지만을 사용하여 VQAv2 test-std 세트에서 77.64%의 정확도를 달성하며, 기존 최고 성능을 기록한 영역 특징 기반 모델을 1.04% 이상 앞서며, 이전까지 최고 성능을 기록한 완전한 트랜스포머 기반 모델보다도 1.6% 높은 성능을 보였다. 특히 모델 규모를 추가로 확장한 경우, 최적의 VQA 모델은 80.54%의 정확도를 달성하였다. 코드와 사전학습된 모델은 https://github.com/zdou0830/METER 에 공개된다.

엔드 투 엔드 시각-언어 트랜스포머 학습에 대한 실증 연구 | 최신 연구 논문 | HyperAI초신경