18日前

Chinese CLIP:中国語における対照的視覚言語事前学習

An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou
Chinese CLIP:中国語における対照的視覚言語事前学習
要約

CLIP(Radfordら、2021年)の著しい成功を受けて、視覚・言語統合事前学習における対照学習の研究および応用が大きく進展した。本研究では、中国語の画像-テキストペアを大規模に構築したデータセットを構築し、その多くは公開されている既存データセットから収集されたものである。この新規データセットを用いて、中国語向けCLIPモデルの事前学習を実施した。さらに、複数のサイズ(7700万~9億5800万パラメータ)を持つ5種類の中国語CLIPモデルを開発した。また、モデル性能の向上を図るため、2段階の事前学習手法を提案した。第一段階では画像エンコーダを固定した状態でモデルを学習し、第二段階ではすべてのパラメータを最適化することで、より高い性能を達成する。包括的な実験の結果、中国語CLIPはゼロショット学習および微調整(fine-tuning)設定において、MUGE、Flickr30K-CN、COCO-CNの各ベンチマークで最先端の性能を達成することが示された。さらに、ELEVATERベンチマーク(Liら、2022年)に基づく評価においても、ゼロショット画像分類タスクで競争力のある性能を発揮した。本研究で開発したコード、モデルおよびデモは、https://github.com/OFA-Sys/Chinese-CLIP にて公開している。