HyperAIHyperAI

Command Palette

Search for a command to run...

ViLBERT: タスクに依存しない視覚言語表現の事前学習

Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee

概要

私たちはViLBERT(Vision-and-Language BERTの略)を紹介します。これは、画像コンテンツと自然言語のタスクに依存しない共同表現を学習するためのモデルです。BERTアーキテクチャを多モーダルの二ストリームモデルに拡張し、視覚的および文章的な入力を別々のストリームで処理し、共注意変換層を通じて相互作用させます。私たちのモデルは、大規模な自動収集データセットであるConceptual Captions上で2つのプロキシタスクを通じて事前学習され、その後、視覚的質問応答、視覚的常識推論、参照表現、キャプションに基づく画像検索などの確立された視覚言語タスクへと転移されます。ベースアーキテクチャへのわずかな追加のみで大幅な改善が見られ、既存のタスク固有のモデルと比較して全4つのタスクで最先端の性能を達成しています。本研究は、視覚と言語間の接地をタスク訓練の一環としてだけ学習するという従来のアプローチから、視覚的接地を事前学習可能かつ転移可能な能力として扱う方向へのシフトを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています