大規模な包括的なビデオ理解

近年、豊富なアノテーションを持つベンチマークにより、ビデオ認識が進歩してきました。しかし、研究は依然として主に人間の行動やスポーツ認識に限定されており、非常に特定のビデオ理解タスクに焦点を当てているため、ビデオの全体的な内容を記述するという点で大きなギャップが残されています。このギャップを埋めるために、我々は大規模な「包括的なビデオ理解データセット」(Holistic Video Understanding Dataset, HVU)を提示します。HVUは、動的シーンにおける複数の意味論的側面の認識を含む包括的な問題である多ラベル・多タスクのビデオ理解に焦点を当てた意味論的分類体系で階層的に組織化されています。HVUには合計約572,000本のビデオが含まれており、訓練用、検証用、テスト用セット合わせて900万件のアノテーションがあり、3142ラベルにわたります。HVUは、シーン、物体、行動、イベント、属性、概念といったカテゴリーで定義された意味論的側面を網羅しており、自然な形で現実世界のシナリオを捉えています。我々は3つの挑戦的なタスクにおいてHVUの汎化能力を示します:1) ビデオ分類 2) ビデオキャプショニング 3) ビデオクラスタリングタスク。特にビデオ分類に関しては、「包括的な外観と時間ネットワーク」(Holistic Appearance and Temporal Network, HATNet)と呼ばれる新しい空間時間深層ニューラルネットワークアーキテクチャを導入します。HATNetは2Dと3Dアーキテクチャを融合し中間表現を取り入れることで構築され、外観と時間情報の組み合わせに重点を置いています。HATNetは多ラベル・多タスク学習問題に焦点を当てており、エンドツーエンドで訓練されます。我々の実験を通じて、包括的な表現学習が補完的であり多くの現実世界アプリケーションにおいて重要な役割を果たす可能性があることを確認しています。