2ヶ月前
D3D: Distilled 3D Networks for Video Action Recognition D3D: ビデオ行動認識のための蒸留3次元ネットワーク
Jonathan C. Stroud; David A. Ross; Chen Sun; Jia Deng; Rahul Sukthankar

要約
最新のビデオアクション認識手法では、一般的に2つのネットワークのアンサンブルが使用されます。1つはRGBフレームを入力とする空間ストリーム、もう1つは光流を入力とする時間ストリームです。最近の研究では、これらの両ストリームが3次元畳み込みニューラルネットワーク(3D CNN)で構成されており、分類を行う前にビデオクリップに対して時空間フィルターを適用します。概念的には、時間フィルターが空間ストリームに運動表現を学習させるため、時間ストリームは冗長であるはずです。しかし、完全に独立した時間ストリームを含めることで、アクション認識性能において依然として著しい利点が見られることから、空間ストリームが時間ストリームによって捉えられる信号の一部を「欠落」していることが示唆されます。本研究ではまず、3D CNNの空間ストリームにおいて運動表現が実際に欠落しているかどうかを調査します。次に、空間ストリームの運動表現を蒸留によって改善できることを示します。つまり、空間ストリームを時間ストリームの出力を予測するように調整することで、両モデルを実質的に1つのストリームに統合します。最後に、我々の蒸留3次元ネットワーク(Distilled 3D Network, D3D)が2つのストリームアプローチと同等の性能を達成し、単一モデルのみを使用し、光流計算も必要ないことを示します。