17日前

画像キャプションおよびVQAのための統合型視覚言語事前学習

Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao

要約

本稿では、統一型の視覚・言語事前学習（Vision-Language Pre-training, VLP）モデルを提案する。このモデルの「統一性」とは、(1) 視覚・言語生成タスク（例：画像キャプション生成）と視覚・言語理解タスク（例：視覚的質問応答）の両方に微調整可能である点、および (2) エンコーダとデコーダの両方において共有される多層トランスフォーマーネットワークを用いる点にあり、多くの既存手法がエンコーダとデコーダを別々のモデルで実装しているのに対し、本モデルは同一のネットワーク構造を共用している。この統一型VLPモデルは、大規模な画像-テキストペアデータセットを用いて、2つの非教師学習的学習目標（双方向的およびシーケンス・トゥ・シーケンス（seq2seq）のマスク付き視覚・言語予測）に基づいて事前学習が行われる。これらの2つのタスクの違いは、予測がどのコンテキストに依存するかという点にのみある。この制御は、共有トランスフォーマーネットワークに特有の自己注意（self-attention）マスクを用いることで実現される。筆者の知る限り、本VLPモデルは、画像キャプション生成と視覚的質問応答という極めて異なるタスクにおいて、COCO Captions、Flickr30k Captions、VQA 2.0の3つの難易度の高いベンチマークデータセットで、いずれも最先端の性能を達成した最初の報告例である。コードおよび事前学習済みモデルは、https://github.com/LuoweiZhou/VLP にて公開されている。