2ヶ月前

M2-Encoder: 大規模な効率的な事前学習による二言語画像・テキスト理解の進歩

Qingpei Guo; Furong Xu; Hanxiao Zhang; Wang Ren; Ziping Ma; Lin Ju; Jian Wang; Jingdong Chen; Ming Yang
M2-Encoder: 大規模な効率的な事前学習による二言語画像・テキスト理解の進歩
要約

ビジョン言語基盤モデル(VLM)であるCLIPは、人工知能の分野を革命的に変革しました。しかし、中国語と英語など複数言語をサポートするVLMモデルは、大規模な事前学習データセットの相対的な不足により遅れを取っていました。この課題に対処するため、60億以上の画像-テキストペアを含む包括的な二言語(中国語-英語)データセットBM-6Bを導入します。このデータセットは、両言語での画像理解能力を向上させる多モーダル基盤モデルの強化を目指しています。このような大規模なデータセットを扱うために、画像-テキストコントラスティブ損失計算の新しいグループ化集約手法を提案します。この手法は通信オーバーヘッドとGPUメモリ要件を大幅に削減し、学習速度を60%向上させます。BM-6B上で強化された細かい理解能力を持つ一連の二言語画像-テキスト基盤モデルを事前学習しました。これらのモデルは「M²エンコーダ」(読み方: Mスクエア)と呼ばれ、両言語における多モーダル検索および分類タスクで新たなベンチマークを樹立しています。特に最大のM²エンコーダ-10Bモデルは、ゼロショット分類設定においてImageNetで88.5%、ImageNet-CNで80.7%というトップ1精度を達成し、それぞれ従来の最先端方法(SoTA)を超える2.2%および21.1%の改善を示しました。M²エンコーダシリーズは現在までで最も包括的な二言語画像-テキスト基盤モデルの一つであり、研究コミュニティに対してさらなる探求と開発のために公開します。