11日前

WenLan：大規模なマルチモーダル事前学習による視覚と言語の橋渡し

Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen

論文の詳細を見る

要約

近年、視覚と言語の統合を実現するため、マルチモーダル事前学習モデルが活発に研究されている。しかし、これらの多くは画像とテキストのペア間に強い意味的相関が存在すると仮定し、明示的にモダリティ間の相互作用をモデル化している。実世界の状況ではこの強い仮定がしばしば成り立たないため、本研究では画像とテキストのペアに対して弱い相関を仮定し、大規模なマルチモーダル事前学習においてモダリティ間相関を暗黙的にモデル化することを採用した。これは、本研究チームが主導する中国プロジェクト「WenLan」の焦点である。具体的には、画像とテキストペアに対する弱い相関仮定の下で、モダリティ間対照学習フレームワーク内に二塔型（two-tower）事前学習モデル「BriVL」を提案した。OpenAIのCLIPが単純な対照学習法を採用しているのに対し、我々は最新のMoCo（Momentum Contrast）手法をマルチモーダル環境に適応させ、より高度なアルゴリズムを設計した。大規模なキューベース辞書を構築することで、GPUリソースの制約下でもより多くのネガティブサンプルを効果的に活用できる。さらに、BriVLモデルの事前学習に用いるため、大規模な中国語マルチソース画像-テキストデータセット「RUC-CAS-WenLan」を構築した。広範な実験結果から、事前学習されたBriVLモデルが、UNITERおよびOpenAI CLIPを含む多数の下流タスクにおいて優れた性能を発揮することが確認された。