
要約
二つのストリームを持つ畳み込みニューラルネットワーク(ConvNets)は、ビデオにおける人間の行動認識で優れた性能を示しています。最近、残差ネットワーク(ResNets)が非常に深いアーキテクチャの訓練に新しい手法として登場しました。本論文では、これらの二つの手法を組み合わせた時空間残差ネットワーク(spatiotemporal ResNets)を導入します。我々の新しいアーキテクチャは、二つの方法で残差接続を導入することで、ResNetsを時空間領域に一般化します。第一に、二つのストリーム構造の外観と運動パスウェイ間に残差接続を注入し、両ストリーム間での時空間相互作用を可能にします。第二に、事前学習された画像ConvNetsを学習可能な畳み込みフィルタで装備し、これらが時間的に隣接する特徴マップ上で操作できるようにすることで、事前学習された画像ConvNetsを時空間ネットワークに変換します。このアプローチはモデルの深さが増加するにつれて徐々に時空間受容野を拡大し、画像ConvNetの設計原理を自然に統合します。全体的なモデルはエンドツーエンドで学習され、複雑な時空間特徴量の階層的な学習が可能となります。我々は新規提案した時空間ResNetを使用して、広く使用されている二つの行動認識ベンチマークで評価を行い、それらにおいてこれまでの最先端技術を超える性能を達成しました。