2ヶ月前
短い断片を超えて:ビデオ分類のための深層ネットワーク
Joe Yue-Hei Ng; Matthew Hausknecht; Sudheendra Vijayanarasimhan; Oriol Vinyals; Rajat Monga; George Toderici

要約
畳み込みニューラルネットワーク(CNNs)は、画像認識問題に広く応用され、認識、検出、セグメンテーション、および検索において最先端の結果をもたらしています。本研究では、これまで試みられていないより長い時間範囲にわたるビデオ内の画像情報を組み合わせるための複数の深層ニューラルネットワークアーキテクチャを提案し、評価しました。我々はフルレングスのビデオを処理できる2つの方法を提案します。最初の方法では、さまざまな畳み込み時系列特徴プーリングアーキテクチャを探索し、このタスクのためにCNNを適応させる際に必要となる設計選択肢について検討します。2つ目の提案された方法では、ビデオをフレームの順序付きシーケンスとして明示的にモデル化します。この目的のために、長短期記憶(LSTM)セルを使用する再帰型ニューラルネットワークを用いており、これらのセルは基盤となるCNNの出力に接続されています。我々の最良のネットワークは、スポーツ1Mデータセットで以前に発表された結果よりも大幅な性能向上を示しており(73.1% 対 60.9%)、UCF-101データセットにおいても追加の光学フロー情報がある場合(88.6% 対 88.0%)とない場合(82.6% 対 72.8%)で同様の改善が見られます。