2달 전

Unicoder-VL: 시각과 언어의 보편적 인코더를 위한 크로스 모달 사전 학습

Gen Li; Nan Duan; Yuejian Fang; Ming Gong; Daxin Jiang; Ming Zhou
Unicoder-VL: 시각과 언어의 보편적 인코더를 위한 크로스 모달 사전 학습
초록

우리는 비전과 언어의 결합 표현을 사전 학습 방식으로 학습하기 위한 보편적인 인코더인 Unicoder-VL을 제안합니다. XLM 및 Unicoder와 같은 다국어 사전 학습 모델에서 영감을 얻어, 시각적 및 언어적 콘텐츠가 크로스 모달 사전 학습을 위해 여러 계층의 Transformer에 입력됩니다. 여기서 세 가지 사전 학습 작업이 사용되며, 이는 Masked Language Modeling (MLM), Masked Object Classification (MOC) 및 Visual-linguistic Matching (VLM)을 포함합니다. 첫 번째 두 작업은 언어적 및 시각적 콘텐츠를 기반으로 입력 토큰에 대한 문맥 인지 표현을 학습합니다. 마지막 작업은 이미지와 텍스트가 서로를 설명하는지를 예측하려고 합니다. 대규모 이미지-캡션 쌍에서 사전 학습한 후, 우리는 단 하나의 추가 출력 계층만으로 캡션 기반 이미지-텍스트 검색 및 시각적 상식 추론에 Unicoder-VL을 전이합니다. 우리는 두 작업 모두에서 최신 수준 또는 유사한 결과를 달성했으며, 크로스 모달 사전 학습의 강력한 능력을 보여주었습니다.

Unicoder-VL: 시각과 언어의 보편적 인코더를 위한 크로스 모달 사전 학습 | 최신 연구 논문 | HyperAI초신경