17日前

自己中心型ビデオ・言語事前学習

Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou
自己中心型ビデオ・言語事前学習
要約

ビデオ・言語事前学習(Video-Language Pretraining, VLP)は、幅広いビデオ・テキストの下流タスクの性能向上を目的として、移行可能な表現を学習することを目指しており、近年注目が高まっている。現状、最も優れた成果を上げている手法は、HowTo100Mなど大規模な第三者視点のビデオ・テキストデータセットに依拠している。本研究では、最近公開されたEgo4Dデータセットを活用し、エゴセントリック(第一人称視点)VLPの研究を3つの方向性から先駆的に行う。(i) Ego4Dから適切に選別された380万件のクリップ・テキストペアを収集し、日常的な人間の行動を広範にカバーする初の第一人称視点ビデオ・テキスト事前学習データセット「EgoClip」を構築した。(ii) エゴセントリックな特徴を意識したポジティブ・サンプルとネガティブ・サンプルを抽出する手法を導入し、第一人称視点に適応した新しい事前学習目的「EgoNCE」を提案した。(iii) EgoClipと同様の構成を持つ開発ベンチマーク「EgoMCQ」を導入することで、EgoClipおよびEgoNCEの設計選定に対する効果的な検証と迅速な探索を可能とした。さらに、EPIC-KITCHENS-100におけるビデオ・テキスト検索、Charades-Egoにおける行動認識、およびEgo4Dチャレンジベンチマークにおける自然言語クエリ、モーメントクエリ、オブジェクト状態変化分類という5つのエゴセントリック下流タスクにおいて、高い性能を実証した。本研究で開発したデータセットおよびコードは、https://github.com/showlab/EgoVLP にて公開されている。