WenLan: 대규모 다중 모달 사전학습을 통한 시각과 언어의 연결

최근 몇 년간 시각과 언어를 연결하기 위한 다중 모달 사전 학습 모델에 대한 연구가 활발히 진행되어 왔다. 그러나 대부분의 기존 모델은 이미지-텍스트 쌍 간에 강한 의미적 상관관계가 존재한다고 가정하며, 이에 따라 이미지와 텍스트 간의 교차 모달 상호작용을 명시적으로 모델링한다. 그러나 현실 세계에서는 이러한 강한 가정이 종종 성립하지 않기 때문에, 본 연구팀이 주도하는 중국 프로젝트 ‘WenLan’에서는 대규모 다중 모달 사전 학습에서 교차 모달 상관관계를 암묵적으로 모델링하는 방식을 채택하였다. 구체적으로, 이미지-텍스트 쌍에 대해 약한 상관관계를 가정한 바탕 위에서, 교차 모달 대조 학습 프레임워크 내에서 두 개의 타워 구조를 가진 사전 학습 모델인 BriVL을 제안한다. OpenAI의 CLIP이 단순한 대조 학습 방식을 채택한 것과 달리, 최신 기법인 MoCo(Memory-augmented Online Contrastive Learning)를 교차 모달 환경에 적응시켜 보다 고도화된 알고리즘을 설계하였다. 큐 기반 사전(dictionary)을 구축함으로써, 제한된 GPU 자원 내에서도 더 많은 음성 샘플(negative samples)을 포함할 수 있게 되었으며, 이는 모델의 학습 효율성과 성능을 향상시킨다. 또한, BriVL 모델의 사전 학습을 위해 대규모 중국어 다원소 이미지-텍스트 데이터셋인 RUC-CAS-WenLan을 구축하였다. 광범위한 실험 결과를 통해 사전 학습된 BriVL 모델이 다양한 하류 작업에서 UNITER 및 OpenAI CLIP 모두를 상회함을 입증하였다.