11일 전

WenLan: 대규모 다중 모달 사전학습을 통한 시각과 언어의 연결

Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen
WenLan: 대규모 다중 모달 사전학습을 통한 시각과 언어의 연결
초록

최근 몇 년간 시각과 언어를 연결하기 위한 다중 모달 사전 학습 모델에 대한 연구가 활발히 진행되어 왔다. 그러나 대부분의 기존 모델은 이미지-텍스트 쌍 간에 강한 의미적 상관관계가 존재한다고 가정하며, 이에 따라 이미지와 텍스트 간의 교차 모달 상호작용을 명시적으로 모델링한다. 그러나 현실 세계에서는 이러한 강한 가정이 종종 성립하지 않기 때문에, 본 연구팀이 주도하는 중국 프로젝트 ‘WenLan’에서는 대규모 다중 모달 사전 학습에서 교차 모달 상관관계를 암묵적으로 모델링하는 방식을 채택하였다. 구체적으로, 이미지-텍스트 쌍에 대해 약한 상관관계를 가정한 바탕 위에서, 교차 모달 대조 학습 프레임워크 내에서 두 개의 타워 구조를 가진 사전 학습 모델인 BriVL을 제안한다. OpenAI의 CLIP이 단순한 대조 학습 방식을 채택한 것과 달리, 최신 기법인 MoCo(Memory-augmented Online Contrastive Learning)를 교차 모달 환경에 적응시켜 보다 고도화된 알고리즘을 설계하였다. 큐 기반 사전(dictionary)을 구축함으로써, 제한된 GPU 자원 내에서도 더 많은 음성 샘플(negative samples)을 포함할 수 있게 되었으며, 이는 모델의 학습 효율성과 성능을 향상시킨다. 또한, BriVL 모델의 사전 학습을 위해 대규모 중국어 다원소 이미지-텍스트 데이터셋인 RUC-CAS-WenLan을 구축하였다. 광범위한 실험 결과를 통해 사전 학습된 BriVL 모델이 다양한 하류 작업에서 UNITER 및 OpenAI CLIP 모두를 상회함을 입증하였다.

WenLan: 대규모 다중 모달 사전학습을 통한 시각과 언어의 연결 | 최신 연구 논문 | HyperAI초신경