
要約
畳み込みニューラルネットワーク(CNN)は、画像認識問題において強力なモデルクラスとして確立されている。これらの成果を受けて、487クラスに分類される100万本のYouTube動画から構成される新しいデータセットを用いて、大規模な動画分類においてCNNの広範な実証的評価を行った。本研究では、時間領域におけるCNNの接続性を拡張する複数のアプローチを検討し、局所的な空間時間的情報を活用する方法を提案する。また、マルチスケールかつ視錐部(foveated)構造を採用したアーキテクチャが、学習の高速化に有望であると示唆した。最良の空間時間ネットワークは、強力な特徴ベースのベースライン(55.3% → 63.9%)に対して顕著な性能向上を示したが、単一フレームモデルと比較すると、驚くべきほど小さな向上(59.3% → 60.9%)にとどまった。さらに、UCF-101アクション認識データセット上でトップ層を再学習することで、最良モデルの一般化性能を検証した結果、UCF-101ベースラインモデル(43.9%)と比較して顕著な性能向上(63.3%)が確認された。