16日前

VinVL:視覚言語モデルにおける視覚表現の再検討

Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao
VinVL:視覚言語モデルにおける視覚表現の再検討
要約

本稿では、視覚言語(VL)タスクにおける視覚表現の向上について詳細な研究を行い、画像のオブジェクト中心表現を提供する改良型オブジェクト検出モデルの開発を報告する。従来最も広く用いられている「ボトムアップ・トップダウン」モデル \cite{anderson2018bottom} と比較して、本モデルはより大規模であり、VLタスクに特化した設計がなされており、複数の公開されたアノテーション付きオブジェクト検出データセットを統合した大規模な学習コーパス上で事前学習されている。その結果、より多様な視覚的オブジェクトおよび概念をカバーする表現を生成することが可能となった。従来のVL研究は、主に視覚・言語の融合モデルの性能向上に注力し、オブジェクト検出モデル自体の改善にはほとんど注目してこなかったが、本研究では視覚特徴がVLモデルにおいて極めて重要であることを示した。実験では、新たに開発したオブジェクト検出モデルによって生成された視覚特徴を、TransformerベースのVL融合モデル \oscar \cite{li2020oscar} に投入し、VLモデルの事前学習および多数の下流VLタスクにおける微調整に、改良された手法 \short\ を用いた。実験結果から、新しく得られた視覚特徴がすべてのVLタスクにおいて顕著な性能向上をもたらし、7つの公開ベンチマークにおいて新たなSOTA(最良の結果)を達成した。本研究で開発した新しいオブジェクト検出モデルは、公開予定である。

VinVL:視覚言語モデルにおける視覚表現の再検討 | 最新論文 | HyperAI超神経