2ヶ月前

AltCLIP: CLIPの言語エンコーダを変更して拡張された言語能力を実現する

Zhongzhi Chen; Guang Liu; Bo-Wen Zhang; Fulong Ye; Qinghong Yang; Ledell Wu
AltCLIP: CLIPの言語エンコーダを変更して拡張された言語能力を実現する
要約

本研究では、概念的に単純かつ効果的な手法を提案し、強力な二言語/多言語のマルチモーダル表現モデルの学習を実現します。OpenAIが公開した事前学習済みのマルチモーダル表現モデルCLIPを基に、そのテキストエンコーダーを事前学習済みの多言語テキストエンコーダーXLM-Rに置き換え、教師学習とコントラスティブ学習からなる二段階の学習スキーマによって言語と画像の表現を合わせました。我々は、幅広いタスクを通じてこの手法の有効性を検証しました。ImageNet-CN、Flicker30k-CN、COCO-CNおよびXTDなどの一連のタスクにおいて新しい最先端性能を達成しており、さらに几乎所有タスクでCLIPと非常に近い性能を得ています。これは、CLIPのテキストエンコーダーを単純に置き換えることで多言語理解などの拡張機能が得られることを示唆しています。当該モデルとコードはhttps://github.com/FlagAI-Open/FlagAI で公開されています。