2ヶ月前
VisualBERT: 視覚と言語のための単純で高性能なベースライン
Liunian Harold Li; Mark Yatskar; Da Yin; Cho-Jui Hsieh; Kai-Wei Chang

要約
私たちは、広範な視覚と言語のタスクをモデル化するための単純で柔軟なフレームワークであるVisualBERTを提案します。VisualBERTは、入力テキストの要素と関連する入力画像の領域を自己注意によって暗黙的に合わせるTransformer層のスタックから構成されています。さらに、画像キャプションデータを使用してVisualBERTを事前学習するために、2つの視覚的に根ざした言語モデルの目的関数を提案します。VQA(Visual Question Answering)、VCR(Visual Commonsense Reasoning)、NLVR2(Natural Language for Visual Reasoning 2)、Flickr30Kを含む4つの視覚と言語のタスクにおける実験結果は、VisualBERTが現行最良のモデルに匹敵または優れた性能を示すことを示していますが、その構造は著しく単純です。さらなる分析では、VisualBERTが明示的な監督なしに言語の要素を画像の領域に根ざすことができること、そして文法的な関係性にも敏感であることが明らかになりました。例えば、動詞とその論旨に対応する画像領域間の関連性を追跡することができます。