7日前

HiTeA:階層的時系列注意型ビデオ・言語事前学習

Qinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei Huang
HiTeA:階層的時系列注意型ビデオ・言語事前学習
要約

ビデオ・言語の事前学習は、さまざまな下流タスクにおけるビデオ・言語理解の性能を飛躍的に向上させました。しかし、これまでの多くの手法は、画像・言語の事前学習フレームワークを直接継承または適応する形でビデオ・言語の事前学習を実施しており、ビデオ特有の時間的特性(temporal nature)を十分に活用できていないという課題がありました。本論文では、時間的特性を意識した階層的アーキテクチャを採用した新しい事前学習フレームワーク「HiTeA(Hierarchical Temporal-Aware)」を提案します。このフレームワークは、ビデオの瞬間(moment)とテキスト間のクロスモーダル整合性、およびビデオ・テキストペア間の時間的関係をモデル化するための2つの新規事前学習タスクを導入しています。具体的には、ビデオ内の瞬間を詳細に探索する「クロスモーダル瞬間探索タスク」を提案し、高精度な瞬間表現を獲得します。また、マルチモーダル時間的関係探索タスクを通じて、異なる時間解像度でビデオ・テキストペア全体を統合的にアライメントさせることで、自然に内在する時間的関係を捉えます。さらに、データセットおよび事前学習モデルの時間的依存性を評価するための「シャッフルテスト」を導入しました。本手法は、15の代表的なビデオ・言語理解および生成タスクにおいて最先端の性能を達成し、特に時間的特徴に重点を置いたデータセット(例:SSv2-TemplateおよびSSv2-Label)において、それぞれ8.6%および11.1%の性能向上を実現しました。また、ゼロショット設定で直接下流タスクに転移した場合にも、優れた汎化能力を示しました。モデルとデモは、ModelScopeにて公開予定です。