
要約
動画における行動認識において、時空間特徴の学習は中心的な役割を果たす。従来の深層ニューラルネットワークモデルは、空間的特徴と時間的特徴を独立に学習する(C2D)か、制約のないパラメータを用いて jointly に学習する(C3D)という2つのアプローチを採用している。本研究では、学習可能なパラメータに重み共有制約を課すことにより、時空間特徴を協調的に表現する新たなニューラル演算を提案する。具体的には、体積データとして表現された動画データの3つの直交視点(空間・時間方向)に沿って2次元畳み込みを実行し、それぞれ空間的外観と時間的運動の特徴を学習する。異なる視点間で畳み込みカーネルを共有することで、空間的特徴と時間的特徴が相互に補完しつつ協調的に学習され、その効果が互いに高め合う。その後、重み付き和による特徴の融合を実施し、重み係数はエンド・ツー・エンドで学習される。本手法は大規模ベンチマークにおいて最先端の性能を達成し、Moments in Time Challenge 2018で1位を獲得した。さらに、各視点の学習された重み係数を用いることで、空間的特徴と時間的特徴の貢献度を定量的に評価することが可能となる。この分析はモデルの解釈可能性を明らかにするとともに、今後の動画認識アルゴリズムの設計に向けた知見を提供する可能性を示している。