CCMB:大規模な中国語クロスモーダルベンチマーク

大規模なデータセットを用いた視覚言語事前学習(VLP)は、さまざまな下流タスクにおいて優れた性能を示している。一方で、英語コーパスを用いた多数のベンチマークが存在するのに対し、中国語コーパスを用いた大規模な事前学習データセットおよび下流タスク用データセットは、依然としてほとんど研究が進んでいない状況にある。本研究では、研究コミュニティ向けに大規模かつ高品質な中国語クロスモーダルベンチマーク「CCMB(Chinese Cross-Modal Benchmark)」を構築した。CCMBには、現在最も大きな公開事前学習データセット「Zero」と、5つの人間アノテーションによるファインチューニング用データセットが含まれている。Zeroは2億5000万枚の画像と7億5000万件のテキスト説明をペアで含んでおり、そのうちの2つのファインチューニングデータセットは、中国語クロスモーダル下流タスクにおいて現在最も規模の大きなものである。CCMBとともに、強力な視覚言語表現を学習するための「事前ランク付け+ランク付け」戦略を採用したVLPフレームワーク「R2D2」も開発した。さらに、ターゲット誘導型蒸留(target-guided distillation)と特徴誘導型蒸留(feature-guided distillation)の二方向蒸留手法を用いて、学習能力をさらに強化した。ZeroデータセットとR2D2フレームワークを組み合わせることで、画像・テキスト検索、画像・テキストマッチング、画像キャプション生成、テキストから画像生成、ゼロショット画像分類の5つの広範なタスクカテゴリに属する12の下流データセットにおいて、最先端の性能を達成した。本研究で開発したデータセット、モデル、コードは、https://github.com/yuxie11/R2D2 にて公開されている。