11일 전

박스 밖을 바라보기: 비전-언어 표현 학습을 위한 엔드투엔드 사전 학습

Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu, Jianlong Fu
박스 밖을 바라보기: 비전-언어 표현 학습을 위한 엔드투엔드 사전 학습
초록

우리는 수백만 개의 이미지-텍스트 쌍으로부터 다중 모달 간의 정렬을 학습하는 시각-언어 사전학습(Vision-Language Pre-training, VLPT)을 위한 합성 신경망(Convolutional Neural Network, CNN)과 트랜스포머의 공동 학습을 연구한다. 최신 기법들은 주목할 만한 이미지 영역을 추출하고, 이를 단계적으로 단어와 정렬하는 방식을 사용한다. 그러나 영역 기반 시각적 특징은 일반적으로 이미지의 일부분을 나타내기 때문에, 기존의 시각-언어 모델은 쌍으로 연결된 자연어로부터 의미를 완전히 이해하는 데 어려움을 겪는다. 본 논문에서는 전체 이미지를 입력으로 받아, 종단 간(end-to-end) 방식으로 시각-언어 표현을 학습하는 SOHO(See Out of tHe bOx)를 제안한다. SOHO는 경계 박스(annotation)를 필요로 하지 않으며, 이로 인해 영역 기반 접근법 대비 추론 속도가 10배 빠르다. 특히 SOHO는 시각 사전(Visual Dictionary, VD)을 통해 포괄적이면서도 컴팩트한 이미지 특징을 추출하는 능력을 학습하며, 이는 다중 모달 이해를 촉진한다. VD는 유사한 의미를 가진 시각적 추상화를 일관되게 표현하도록 설계되었으며, 실시간으로 업데이트되며 제안한 사전학습 작업인 마스킹 시각 모델링(Masked Visual Modeling, MVM)에 활용된다. 우리는 표준 VLPT 설정에 따라 네 가지 잘 정립된 시각-언어 작업에서 실험을 수행하였다. 특히 SOHO는 MSCOCO 텍스트 검색 5k 테스트 세트에서 R@1 점수 2.0%의 절대적 향상, NLVR$^2$ 테스트-P 세트에서 정확도 1.5% 향상, SNLI-VE 테스트 세트에서 정확도 6.7% 향상을 달성하였다.

박스 밖을 바라보기: 비전-언어 표현 학습을 위한 엔드투엔드 사전 학습 | 최신 연구 논문 | HyperAI초신경