
視覚言語推論には、視覚概念の理解、言語意味論の理解、そして最も重要なことに、これら2つのモダリティ間の整合性と関係性の理解が必要です。そこで、私たちはこれらの視覚言語接続を学習するためのLXMERT(Learning Cross-Modality Encoder Representations from Transformers)フレームワークを提案します。LXMERTでは、オブジェクト関係エンコーダ、言語エンコーダ、クロスモダリティエンコーダから構成される大規模なTransformerモデルを構築します。次に、モデルに視覚と言語意味論を接続する能力を与えるために、マスクされた言語モデリング、マスクされたオブジェクト予測(特徴回帰とラベル分類)、クロスモダリティマッチング、画像質問応答という5つの多様で代表的な事前学習タスクを通じて大量の画像と文のペアでモデルを事前学習します。これらのタスクは、モダリティ内およびクロスモダリティ間の関係性を学習するのに役立ちます。事前学習したパラメータからの微調整後、私たちのモデルは2つの視覚質問応答データセット(VQAおよびGQA)で最先端の結果を達成しました。さらに、事前学習したクロスモダリティモデルがNLVR2という難易度の高い視覚推論タスクにも適応可能であることを示し、以前の最高結果を絶対値で22%向上させました(54%から76%)。最後に、詳細な削減研究を行い、新しいモデルコンポーネントと事前学習戦略が我々の強力な結果に大きく貢献していることを証明しました。また、異なるエンコーダに対するいくつかの注意可視化も提示しています。コードと事前学習済みモデルは公開されており、以下のURLからアクセスできます:https://github.com/airsplay/lxmert