17日前

HierVL:階層的ビデオ・言語埋め込みの学習

Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman
HierVL:階層的ビデオ・言語埋め込みの学習
要約

ビデオ・言語埋め込みは、視覚表現に意味情報を注入する有望なアプローチであるが、従来の手法は数秒程度のビデオクリップとその付随するテキスト間の短期的関連性しか捉えられていない。本研究では、長期的および短期的関連性の両方を同時に考慮する新しい階層型ビデオ・言語埋め込み「HierVL」を提案する。訓練データとして、人間の行動を時刻付きテキストで記述した動画に加え、長時間にわたる動画全体の高レベルな要約テキスト(Ego4Dで提供されているものと同様)を用いる。我々は、クリップレベルおよびビデオレベルの両方でテキストと視覚情報の整合性を促進する階層的対照学習目標を導入する。クリップレベルの制約は、ステップバイステップの記述を用いて、その瞬間に何が起きているかを捉えるのに対し、ビデオレベルの制約は要約テキストを用いて、なぜそれが起こっているか、すなわち行動の広義の文脈および行動者の意図を捉える。この階層構造により、単一レベルの埋め込みと比較して優れたクリップ表現が得られるとともに、長期的なビデオ表現においては、長期的ビデオモデリングを要するタスクで最先端(SotA)の性能を達成した。HierVLは、EPIC-KITCHENS-100、Charades-Ego、HowTo100Mといった複数の挑戦的な下流タスクにおいて、ゼロショットおよびファインチューニング設定の両方で成功裏に転移学習が可能である。