2ヶ月前

PEVL: 視覚言語モデルの位置強化事前学習とプロンプト微調整

Yuan Yao; Qianyu Chen; Ao Zhang; Wei Ji; Zhiyuan Liu; Tat-Seng Chua; Maosong Sun
PEVL: 視覚言語モデルの位置強化事前学習とプロンプト微調整
要約

ビジョン言語事前学習(VLP)は、さまざまなクロスモーダルタスクにおいて優れた性能を示しており、オブジェクト検出器に依存しないVLPモデルが計算効率の優れさと競争力のある性能により主流となっています。しかし、オブジェクト検出器の除去は位置感度の高いビジョン言語(VL)タスク、例えば参照表現理解や視覚常識推論などにおいて重要な明示的なオブジェクトモデリングの能力も奪っています。この課題に対処するため、私たちはPEVLを導入します。PEVLは、明示的なオブジェクト位置モデリングを用いてVLPモデルの事前学習とプロンプト調整を強化します。具体的には、PEVLは離散化されたオブジェクト位置と言語を統一された言語モデリングフレームワークで再定式化し、これにより事前学習中の明示的なVLアライメントを促進するとともに、さまざまな下流タスクに対する柔軟なプロンプト調整も可能にします。私たちは、PEVLが参照表現理解やフレーズグラウンドングなどの位置感度の高いタスクにおいて検出器なしのVLPモデルの最先端性能を実現することを示し、また接地された入力を用いた位置非感度タスクでの性能向上にも寄与することを確認しました。本論文に関連するデータとコードは、https://github.com/thunlp/PEVL で公開されています。

PEVL: 視覚言語モデルの位置強化事前学習とプロンプト微調整 | 最新論文 | HyperAI超神経