アライン・ビフォア・フューズ:モメンタム蒸留を用いた視覚と言語の表現学習

大規模な視覚言語表現学習は、さまざまな視覚言語タスクにおいて有望な改善を示しています。既存の大多数の手法では、領域ベースの画像特徴(visual tokens)と単語トークン(word tokens)を共同でモデル化するために、トランスフォーマーに基づく多モーダルエンコーダーが使用されています。しかし、視覚トークンと単語トークンが未対応であるため、多モーダルエンコーダーが画像とテキストの相互作用を学習することは困難です。本論文では、クロスモーダルアテンションを通じてこれらの表現を融合する前に、画像とテキストの表現を対応させるためのコントラスティブ損失を導入します(ALBEF: ALign the image and text representations BEfore Fusing)。既存の大半の手法とは異なり、当手法はバウンディングボックス注釈や高解像度画像を必要としません。ノイジーなウェブデータからの学習を改善するために、モメンタムモデルによって生成された疑似ターゲットから学習する自己訓練法であるモメンタムディスティレーションを提案します。さらに、相互情報最大化の観点からALBEFの理論的分析を行い、異なるトレーニングタスクが画像-テキストペアに対して異なるビューを生成する方法として解釈できることを示します。ALBEFは複数の下流視覚言語タスクで最先端の性能を達成しており、画像-テキスト検索ではオーダー・オブ・マグニチュード大きなデータセットで事前学習された手法よりも優れています。VQA(Visual Question Answering)およびNLVR$^2$(Natural Language for Visual Reasoning 2)においても、ALBEFは最先端技術に対してそれぞれ2.37%および3.84%の絶対的な向上を達成し、推論速度も速くなっています。コードと事前学習済みモデルはhttps://github.com/salesforce/ALBEF/で公開されています。