悟空:1億規模の中国語クロスモーダル事前学習ベンチマーク

視覚言語事前学習(VLP)モデルは、さまざまな下流タスクにおいて顕著な性能を示している。その成功は、事前学習に用いられるクロスモーダルデータセットの規模に大きく依存している。しかし、中国語における大規模なデータセットおよびベンチマークの不足は、中国語VLPモデルの発展およびより広範な多言語応用を阻害している。本研究では、ウェブから収集した1億件の中国語画像・テキストペアを含む大規模な中国語クロスモーダルデータセット「Wukong」を公開する。Wukongは、異なるマルチモーダル事前学習手法のベンチマークを提供することを目的とし、VLP研究およびコミュニティの発展を促進することを目的としている。さらに、ViT-B/ViT-L/SwinTなど複数の画像エンコーダを用いて事前学習されたモデル群を公開し、ロック画像テキストチューニング、対比学習におけるトークン単位の類似性、およびトークン間相互作用の低減といった先進的な事前学習技術も適用している。広範な実験および、新たに作成された最大規模の人工検証済み画像・テキストテストデータセットを含む複数の下流タスクにおけるベンチマーク評価も提供している。実験結果から、Wukongは異なるクロスモーダル学習手法に対する有望な中国語事前学習データセットおよびベンチマークとして機能することが示された。10のデータセットにおけるゼロショット画像分類タスクでは、$Wukong_{ViT-L}$が平均73.03%の精度を達成した。画像・テキスト検索タスクにおいては、AIC-ICCデータセットで平均リコール率71.6%を達成し、WenLan 2.0と比較して12.9%高い性能を示した。また、Flickr8K-CN、Flickr-30K-CN、COCO-CNなど複数のデータセットにおいて、他のモデル変種と比較してWukongモデルの下流タスク性能を評価している。詳細情報は以下より参照可能:https://wukong-dataset.github.io/wukong-dataset/