2ヶ月前
空間時間畳み込みの詳細な検討 - アクション認識への応用
Du Tran; Heng Wang; Lorenzo Torresani; Jamie Ray; Yann LeCun; Manohar Paluri

要約
本論文では、ビデオ分析における複数の時空間畳み込みの形式について議論し、それらが行動認識に与える影響を研究します。我々の動機は、2D CNN(畳み込みニューラルネットワーク)がビデオの各フレームに適用された際に、依然として行動認識において堅実な性能を示しているという観察に基づいています。本研究では、残差学習の枠組み内で3D CNNが2D CNNに対して精度面で優れていることを実証的に示します。さらに、3D畳み込みフィルタを空間成分と時間成分に分解することで、精度に著しい利点があることを示します。これらの実証的な研究結果から、「R(2+1)D」という新しい時空間畳み込みブロックの設計に至りました。このブロックにより構築されるCNNは、Sports-1M、Kinetics、UCF101およびHMDB51データセットにおいて最先端の結果と同等またはそれ以上の性能を達成しています。