17일 전
UNIMO: 크로스모달 대비 학습을 통한 통합 모달 이해 및 생성으로 나아가기
Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua Wu, Haifeng Wang

초록
기존의 사전 훈련 방법은 단일 모달 작업 또는 다중 모달 작업에만 초점을 맞추고 있어 서로 간에 효과적으로 적응하지 못한다. 이러한 방법들은 단일 모달 데이터(예: 텍스트 또는 이미지)만 활용하거나 제한된 다중 모달 데이터(예: 이미지-텍스트 쌍)만 사용할 수 있다. 본 연구에서는 단일 모달 및 다중 모달 이해 및 생성 작업 양쪽에 효과적으로 적응할 수 있는 통합 모달 사전 훈련 아키텍처인 UNIMO를 제안한다. 방대한 자유 텍스트 코퍼스와 이미지 컬렉션을 활용하여 시각적 및 텍스트적 이해 능력을 향상시키며, 이미지-텍스트 쌍으로 구성된 코퍼스를 기반으로 교차 모달 대조 학습(Cross-modal Contrastive Learning, CMCL)을 사용하여 텍스트 정보와 시각 정보를 통합된 의미 공간에 정렬한다. 비쌍화된 단일 모달 데이터는 매우 풍부하므로, 본 모델은 보다 대규모의 데이터를 활용하여 더 일반화 가능한 표현을 학습할 수 있다. 또한, 통합된 의미 공간에서 텍스트 지식과 시각 지식은 서로 보완하며 상호 강화된다. 실험 결과, UNIMO는 여러 단일 모달 및 다중 모달 하류 작업에서 성능이 크게 향상됨을 확인할 수 있었다. 본 연구의 코드 및 사전 훈련 모델은 UNIMO 프로젝트 페이지(https://unimo-ptm.github.io/)에서 공개되어 있다.