
要約
時間的変動に対する一般化は、動画における効果的な行動認識の前提条件である。深層ニューラルネットワークの著しい進展にもかかわらず、行動全体の性能に影響を与える短時間の識別的運動に焦点を当てるという課題は依然として残っている。本研究では、関連する空間時間的特徴を発見する際の柔軟性を確保することで、この課題に取り組む。提案する「Squeeze and Recursion Temporal Gates(SRTG)」は、潜在的な時間的変動を持つ入力において類似した活性化を示すものを優遇するアプローチである。このアイデアを実現するために、特徴の動的変化をLSTMによって統合する新しいCNNブロックを導入し、発見された動的特性とモデル化された特徴の整合性を評価する役割を担う時間ゲートを併用している。SRTGブロックを用いることで、GFLOPs数のわずかな増加で一貫した性能向上が得られることを示した。Kinetics-700では現在の最先端モデルと同等の性能を達成し、HACS、Moments in Time、UCF-101、HMDB-51においてはそれらを上回る結果を得た。