2ヶ月前

Unicoder-VL: 交叉モーダル事前学習による視覚と言語の普遍的なエンコーダー

Gen Li; Nan Duan; Yuejian Fang; Ming Gong; Daxin Jiang; Ming Zhou

要約

我々はUnicoder-VLを提案します。これは、事前学習の方法で視覚と言語の合同表現を学ぶことを目指した普遍的なエンコーダです。クロスリンガルの事前学習モデル（XLMやUnicoderなど）から着想を得て、視覚的および言語的内容が多層トランスフォーマーに供給され、クロスモーダルな事前学習が行われます。ここで、3つの事前学習タスクが用いられます。それらはマスクされた言語モデル化（Masked Language Modeling: MLM）、マスクされたオブジェクト分類（Masked Object Classification: MOC）、および視覚-言語マッチング（Visual-linguistic Matching: VLM）です。最初の2つのタスクは、言語的および視覚的内容に基づいて入力トークンの文脈に応じた表現を学びます。最後のタスクでは、画像とテキストが互いを説明しているかどうかを予測しようとします。大規模な画像-キャプションペアでの事前学習後、Unicoder-VLは単一の追加出力層だけでキャプションベースの画像-テキスト検索と視覚常識推論に転移されます。両方のタスクにおいて最先端またはそれに匹敵する結果を達成し、クロスモーダルな事前学習の強力な能力を示しています。