2ヶ月前

ERNIE-ViL 2.0: 画像とテキストの事前学習のための多視点対照学習

Bin Shan; Weichong Yin; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang
ERNIE-ViL 2.0: 画像とテキストの事前学習のための多視点対照学習
要約

最近、双エンコーダーを基盤とするビジョン言語事前学習(Vision-Language Pre-trained: VLP)モデルが、さまざまなクロスモーダルタスクにおける優れた性能と高い計算効率性により、学術界および産業界から広範な注目を集めています。これらのモデルは、画像-テキストペアの対照的学習を使用してクロスモーダル表現を学習しようとしますが、各モーダル間の構築された相互関連は単一の視点にのみ依存しています。実際には、画像やテキストには様々な潜在的な視点が含まれており、人間が現実世界のシーンを多様な説明や写真を通じて捉えるようにです。本論文では、ERNIE-ViL 2.0というマルチビュー対照的学習フレームワークを提案します。このフレームワークは、異なる視点間で同時にモーダル内相関とモーダル間相関を構築し、より堅牢なクロスモーダル表現を学習することを目指しています。具体的には、各モーダル内で複数のビューを構築し、単一モーダル表現の強化のためにモーダル内相関を学習します。固有の視覚的/文章的なビューに加えて、オブジェクトタグのシーケンスを特別な文章的ビューとして構築することで、ノイジーな画像-テキストペアでのクロスモーダル意味論的ギャップを縮めます。2,900万件の公開データセットで事前学習されたERNIE-ViL 2.0は、英語でのクロスモーダル検索において競争力のある結果を達成しました。さらに、当該手法を中国語のクロスモーダルタスクにも一般化するために、15億件の中国語画像-テキストペアを使用して事前学習データセットを拡大してERNIE-ViL 2.0を訓練しました。これにより中国語でのクロスモーダル検索において従来の最先端結果よりも大幅な改善が見られました。我々は事前学習済みモデルをhttps://github.com/PaddlePaddle/ERNIEで公開しています。以上が翻訳した内容です。ご確認ください。

ERNIE-ViL 2.0: 画像とテキストの事前学習のための多視点対照学習 | 最新論文 | HyperAI超神経