
要約
活動分析において大きな成功が達成されたにもかかわらず、依然として多くの課題が存在しています。既存の活動認識に関する研究の多くは、効率的なアーキテクチャやビデオサンプリング戦略の設計に重点を置いています。しかし、ビデオ内の細かい動作と長期構造の特性により、活動認識にはビデオシーケンス間の時間的関係を推論することが求められます。本論文では、複数の時間尺度でビデオシーケンス間の外観特徴と時間的関係を同時に捉えるための効率的な時間的推論グラフ(Temporal Reasoning Graph: TRG)を提案します。具体的には、学習可能な時間的関係グラフを構築し、多様な時間尺度範囲での時間的関係を探求します。さらに、多様な時間的関係を抽出するために、多頭時間隣接行列(multi-head temporal adjacent matrix)を設計しました。最終的に、これらの特徴量がグラフを通じて畳み込まれる意味を抽出するための多頭時間的関係集約器(multi-head temporal relation aggregator)を提案します。広く使用されている大規模データセットであるSomething-SomethingやCharadesに対して広範な実験を行った結果、当モデルは最先端の性能を達成できることを示しています。さらなる分析では、当TRGを使用した時間的関係推論が活動認識のために識別力のある特徴量を抽出できることも確認されました。