17일 전

UNIMO: 크로스모달 대비 학습을 통한 통합 모달 이해 및 생성으로 나아가기

Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua Wu, Haifeng Wang
UNIMO: 크로스모달 대비 학습을 통한 통합 모달 이해 및 생성으로 나아가기
초록

기존의 사전 훈련 방법은 단일 모달 작업 또는 다중 모달 작업에만 초점을 맞추고 있어 서로 간에 효과적으로 적응하지 못한다. 이러한 방법들은 단일 모달 데이터(예: 텍스트 또는 이미지)만 활용하거나 제한된 다중 모달 데이터(예: 이미지-텍스트 쌍)만 사용할 수 있다. 본 연구에서는 단일 모달 및 다중 모달 이해 및 생성 작업 양쪽에 효과적으로 적응할 수 있는 통합 모달 사전 훈련 아키텍처인 UNIMO를 제안한다. 방대한 자유 텍스트 코퍼스와 이미지 컬렉션을 활용하여 시각적 및 텍스트적 이해 능력을 향상시키며, 이미지-텍스트 쌍으로 구성된 코퍼스를 기반으로 교차 모달 대조 학습(Cross-modal Contrastive Learning, CMCL)을 사용하여 텍스트 정보와 시각 정보를 통합된 의미 공간에 정렬한다. 비쌍화된 단일 모달 데이터는 매우 풍부하므로, 본 모델은 보다 대규모의 데이터를 활용하여 더 일반화 가능한 표현을 학습할 수 있다. 또한, 통합된 의미 공간에서 텍스트 지식과 시각 지식은 서로 보완하며 상호 강화된다. 실험 결과, UNIMO는 여러 단일 모달 및 다중 모달 하류 작업에서 성능이 크게 향상됨을 확인할 수 있었다. 본 연구의 코드 및 사전 훈련 모델은 UNIMO 프로젝트 페이지(https://unimo-ptm.github.io/)에서 공개되어 있다.