17日前
EgoVLPv2:バックボーン内での統合を用いたエゴセントリック動画・言語事前学習
Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang

要約
視覚言語事前学習(VLP)は、さまざまな視覚および言語タスクへの汎化能力を持つことから、近年ますます重要性を増している。しかし、従来のエゴセントリックVLPフレームワークは、独立した動画および言語エンコーダを用いており、クロスモーダル情報の学習をファインチューニング段階でのみ行っているため、統合的なシステムの開発が制限されている。本研究では、動画および言語バックボーンに直接クロスモーダル融合を組み込むことで、前世代に比べて大幅な進化を遂げたエゴセントリック視覚言語事前学習の第二世代である「EgoVLPv2」を提案する。EgoVLPv2は、事前学習段階で強力な動画-テキスト表現を学習し、クロスモーダルアテンションモジュールを再利用することで、柔軟かつ効率的な形でさまざまな下流タスクをサポートする。これにより、ファインチューニングのコストを低減する。さらに、本研究で提案するバックボーン内融合戦略は、追加の特化型融合層を積み重ねる手法よりも軽量で、計算効率に優れている。広範な視覚言語タスクにおける包括的な実験により、EgoVLPv2がすべての下流タスクにおいて強力なベースラインを上回る一貫した最先端性能を達成することを示した。本研究のプロジェクトページは以下のURLにて公開されている:https://shramanpramanick.github.io/EgoVLPv2/。