
要約
私たちはViLBERT(Vision-and-Language BERTの略)を紹介します。これは、画像コンテンツと自然言語のタスクに依存しない共同表現を学習するためのモデルです。BERTアーキテクチャを多モーダルの二ストリームモデルに拡張し、視覚的および文章的な入力を別々のストリームで処理し、共注意変換層を通じて相互作用させます。私たちのモデルは、大規模な自動収集データセットであるConceptual Captions上で2つのプロキシタスクを通じて事前学習され、その後、視覚的質問応答、視覚的常識推論、参照表現、キャプションに基づく画像検索などの確立された視覚言語タスクへと転移されます。ベースアーキテクチャへのわずかな追加のみで大幅な改善が見られ、既存のタスク固有のモデルと比較して全4つのタスクで最先端の性能を達成しています。本研究は、視覚と言語間の接地をタスク訓練の一環としてだけ学習するという従来のアプローチから、視覚的接地を事前学習可能かつ転移可能な能力として扱う方向へのシフトを示しています。