HyperAIHyperAI

Command Palette

Search for a command to run...

VL-BERT: 一般的視覚言語表現の事前学習

Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei Jifeng Dai

概要

視覚言語タスク向けの新しい事前学習可能な汎用表現、Visual-Linguistic BERT(以下、VL-BERT)を紹介します。VL-BERTは、シンプルかつ強力なTransformerモデルを基盤として採用し、入力として視覚的および言語的な埋め込み特徴量を取り扱うように拡張しています。このモデルでは、入力の各要素が入力文の単語または入力画像の興味領域(Region-of-Interest: RoI)のいずれかとなります。VL-BERTは、多くの視覚言語下流タスクに適応するように設計されています。汎用表現をより効果的に活用するために、我々は大規模なConceptual Captionsデータセットとテキストのみのコーパスを使用してVL-BERTを事前学習させました。広範な実証分析により、事前学習プロセスが視覚的および言語的な手がかりをよりよく整合させ、視覚常識推論、視覚質問応答、参照表現理解などの下流タスクに寄与することが示されました。特に注目に値するのは、VL-BERTがVCRベンチマークのリーダーボードで単一モデルとしては初めて1位を獲得したことです。コードは\url{https://github.com/jackroos/VL-BERT}で公開されています


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています