ERNIE-ViL 2.0: 이미지-텍스트 사전 학습을 위한 다중 시점 대조적 학습

최근 듀얼 인코더 기반의 비전-언어 사전학습(VLP) 모델들이 다양한 크로스모달 작업에서 우수한 성능과 높은 계산 효율성을 보여주면서 학계와 산업계에서 많은 주목을 받고 있습니다. 이러한 모델들은 이미지-텍스트 쌍에 대한 대조적 학습을 통해 크로스모달 표현을 학습하려고 하지만, 각 모달 간의 상호 관계는 단일 시점에만 의존합니다. 실제로, 이미지나 텍스트는 다양한 잠재적인 시점을 포함하고 있으며, 인간이 실제 세계의 장면을 다양한 설명이나 사진을 통해 포착할 수 있는 것처럼 작동합니다. 본 논문에서는 이러한 문제를 해결하기 위해 다중 시점 대조적 학습 프레임워크인 ERNIE-ViL 2.0을 제안합니다. 이 프레임워크는 각 모달 내부에서 여러 시점을 구성하여 단일 모달 표현을 강화하는 동시에, 서로 다른 모달 간의 상호 관계를 학습하여 더 견고한 크로스모달 표현을 얻기 위한 것입니다.특히, 우리는 각 모달 내부에서 여러 시점을 구성하여 단일 모달 표현의 내부 관계를 학습합니다. 고유한 시각적/텍스트적 시점 외에도, 노이즈가 있는 이미지-텍스트 쌍에서 크로스모달 의미 차이를 줄이기 위해 객체 태그의 시퀀스를 특별한 텍스트 시점으로 구성합니다. 공개적으로 사용 가능한 29M 데이터셋으로 사전학습된 ERNIE-ViL 2.0은 영어 크로스모달 검색에서 경쟁력 있는 결과를 달성하였습니다. 또한, 우리의 방법을 중국어 크로스모달 작업으로 일반화하기 위해, 사전학습 데이터셋의 규모를 15억 개의 중국어 이미지-텍스트 쌍으로 확대하여 ERNIE-ViL 2.0을 훈련시켰습니다. 이로 인해 중국어 크로스모달 검색에서 이전 최상위 결과(SOTA)보다 크게 개선되었습니다.우리는 사전학습된 모델들을 https://github.com/PaddlePaddle/ERNIE 에서 공개합니다.