Command Palette
Search for a command to run...
ViLT: 畳み込みや領域監督を用いない視覚言語トランスフォーマー
ViLT: 畳み込みや領域監督を用いない視覚言語トランスフォーマー
Wonjae Kim; Bokyung Son; Ildoo Kim
概要
Vision-and-Language Pre-training (VLP) は、さまざまな視覚と言語の下流タスクにおける性能向上に貢献しています。現在の VLP アプローチは、画像特徴量抽出プロセスに大きく依存しており、その多くが領域監督(例:物体検出)や畳み込みアーキテクチャ(例:ResNet)を用いています。しかし、文献では軽視されていますが、私たちは次の2つの観点から問題があると考えています。(1) 効率/速度面で、単純な入力特徴量の抽出に必要な計算量がマルチモーダル相互作用ステップよりも遥かに多いこと;(2) 表現力面で、視覚埋め込み器とその事前定義された視覚語彙の表現力によって上限が制約されることです。本論文では、最小限の VLP モデルである Vision-and-Language Transformer (ViLT) を提案します。ViLT は一元化されており、視覚入力の処理が極めて簡素化され、テキスト入力を処理する際と同じように畳み込みを用いずに行われます。実験結果から、ViLT は以前の VLP モデルよりも最大で数十倍高速でありながら、競合または優れた下流タスク性能を示すことが確認されました。当研究グループのコードおよび事前学習済み重みは、https://github.com/dandelin/vilt で公開されています。