16일 전
ERNIE-UniX2: 이해 및 생성을 위한 통합 다국어 다모달 프레임워크
Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

초록
최근의 다국어·다모달 연구들은 시각-언어 사전학습(Vision-Language Pre-training, VLP) 모델을 영어 외의 언어 입력으로 확장하여 놀라운 성능을 달성하고자 노력하고 있다. 그러나 이러한 모델들은 인코더만을 사용하는 아키텍처에 기반하여 이해(understanding) 작업에 집중하고 있다. 본 논문에서는 생성(generation) 및 이해 작업 모두를 위한 통합적인 다국어·다모달 사전학습 프레임워크인 ERNIE-UniX2를 제안한다. ERNIE-UniX2는 인코더-디코더 아키텍처 기반으로 대조 학습(contrastive learning)과 언어 모델링(language modeling) 등 다양한 사전학습 전략을 통합하여 언어와 모달 간의 더 나은 공동 표현(joint representation)을 학습하려는 시도를 한다. 또한 ERNIE-UniX2는 다양한 생성 및 이해 작업에 대해 원활하게 미세조정(fine-tuning)이 가능하다. 다국어 텍스트 전용 및 이미지-텍스트 데이터셋을 병행하여 사전학습한 ERNIE-UniX2는 다모달 기계 번역과 다국어 시각적 질의응답(Multilingual Visual Question Answering)과 같은 다양한 다국어·다모달 생성 및 이해 작업에서 최상의 성능(SOTA)을 달성하였다.