2ヶ月前

ノイジーなテキスト監督を用いた視覚および視覚言語表現学習のスケーリングアップ

Chao Jia; Yinfei Yang; Ye Xia; Yi-Ting Chen; Zarana Parekh; Hieu Pham; Quoc V. Le; Yunhsuan Sung; Zhen Li; Tom Duerig
ノイジーなテキスト監督を用いた視覚および視覚言語表現学習のスケーリングアップ
要約

事前学習済み表現は、多くの自然言語処理(NLP)および知覚タスクにおいて重要な役割を果たしています。NLPにおける表現学習は、人間の注釈なしで生のテキストを用いた訓練に移行しましたが、視覚および視覚言語表現は依然として高コストであるか、専門的な知識を必要とする手入れされた訓練データセットに大きく依存しています。視覚応用では、ImageNetやOpenImagesなどの明示的なクラスラベルを持つデータセットを使用して表現を主に学習します。視覚言語分野では、Conceptual CaptionsやMSCOCO、CLIPなどの人気のあるデータセットはすべて、非自明なデータ収集(およびクリーニング)プロセスを伴います。この高コストな手入れプロセスはデータセットの規模を制限し、結果として訓練モデルの拡大を妨げています。本論文では、Conceptual Captionsデータセットにおいて高価なフィルタリングや後処理ステップなしで取得した10億以上の画像代替テキストペアからなるノイジーなデータセットを利用します。単純なデュアルエンコーダー構造は、コントラスティブロスを使用して画像とテキストペアの視覚的および言語的表現を合わせるための学習を行います。我々は、コーパスの規模がそのノイズを補うことができることを示し、このような単純な学習スキームでも最先端の表現を得られることを実証しました。我々の視覚的表現は、ImageNetやVTABなどの分類タスクへの転移時に優れた性能を発揮します。また、合わせられた視覚的および言語的表現によりゼロショット画像分類が可能となり、Flickr30KやMSCOCOの画像-テキスト検索ベンチマークにおいても新たな最先端結果を達成しています。これはより複雑なクロスアテンションモデルと比較しても同様です。さらにこれらの表現は複雑なテキストクエリやテキスト+画像クエリによるクロスマダリティ検索も可能にします。

ノイジーなテキスト監督を用いた視覚および視覚言語表現学習のスケーリングアップ | 最新論文 | HyperAI超神経