2ヶ月前

VL-BERT: 一般的視覚言語表現の事前学習

Weijie Su; Xizhou Zhu; Yue Cao; Bin Li; Lewei Lu; Furu Wei; Jifeng Dai

要約

視覚言語タスク向けの新しい事前学習可能な汎用表現、Visual-Linguistic BERT（以下、VL-BERT）を紹介します。VL-BERTは、シンプルかつ強力なTransformerモデルを基盤として採用し、入力として視覚的および言語的な埋め込み特徴量を取り扱うように拡張しています。このモデルでは、入力の各要素が入力文の単語または入力画像の興味領域（Region-of-Interest: RoI）のいずれかとなります。VL-BERTは、多くの視覚言語下流タスクに適応するように設計されています。汎用表現をより効果的に活用するために、我々は大規模なConceptual Captionsデータセットとテキストのみのコーパスを使用してVL-BERTを事前学習させました。広範な実証分析により、事前学習プロセスが視覚的および言語的な手がかりをよりよく整合させ、視覚常識推論、視覚質問応答、参照表現理解などの下流タスクに寄与することが示されました。特に注目に値するのは、VL-BERTがVCRベンチマークのリーダーボードで単一モデルとしては初めて1位を獲得したことです。コードは\url{https://github.com/jackroos/VL-BERT}で公開されています。