HyperAIHyperAI

Command Palette

Search for a command to run...

画像キャプションおよびVQAのための統合型視覚言語事前学習

Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao

概要

本稿では、統一型の視覚・言語事前学習(Vision-Language Pre-training, VLP)モデルを提案する。このモデルの「統一性」とは、(1) 視覚・言語生成タスク(例:画像キャプション生成)と視覚・言語理解タスク(例:視覚的質問応答)の両方に微調整可能である点、および (2) エンコーダとデコーダの両方において共有される多層トランスフォーマーネットワークを用いる点にあり、多くの既存手法がエンコーダとデコーダを別々のモデルで実装しているのに対し、本モデルは同一のネットワーク構造を共用している。この統一型VLPモデルは、大規模な画像-テキストペアデータセットを用いて、2つの非教師学習的学習目標(双方向的およびシーケンス・トゥ・シーケンス(seq2seq)のマスク付き視覚・言語予測)に基づいて事前学習が行われる。これらの2つのタスクの違いは、予測がどのコンテキストに依存するかという点にのみある。この制御は、共有トランスフォーマーネットワークに特有の自己注意(self-attention)マスクを用いることで実現される。筆者の知る限り、本VLPモデルは、画像キャプション生成と視覚的質問応答という極めて異なるタスクにおいて、COCO Captions、Flickr30k Captions、VQA 2.0の3つの難易度の高いベンチマークデータセットで、いずれも最先端の性能を達成した最初の報告例である。コードおよび事前学習済みモデルは、https://github.com/LuoweiZhou/VLP にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
画像キャプションおよびVQAのための統合型視覚言語事前学習 | 記事 | HyperAI超神経