2ヶ月前

Tube Convolutional Neural Network (T-CNN) を用いた動画における行動検出

Rui Hou; Chen Chen; Mubarak Shah
Tube Convolutional Neural Network (T-CNN) を用いた動画における行動検出
要約

深層学習は、画像分類や物体検出において優れた結果を達成することが示されています。しかし、ビデオデータの複雑さとアノテーションの不足により、深層学習がビデオ分析(例:動作検出や認識)に与える影響は限定的でした。従来の畳み込みニューラルネットワーク(CNN)に基づくビデオ動作検出手法は、通常、フレームレベルでの動作提案検出とフレーム間での提案の関連付けという2つの主要なステップから構成されています。また、これらの方法では、空間的な特徴と時間的な特徴を別々に処理するために二重ストリームCNNフレームワークが採用されています。本論文では、ビデオ内の動作検出のためにTube Convolutional Neural Network (T-CNN)と呼ばれるエンドツーエンドの深層ネットワークを提案します。提案されたアーキテクチャは統合されたネットワークであり、3D畳み込み特徴量に基づいて動作を認識し、位置特定することができます。まず、ビデオは等しい長さのクリップに分割され、各クリップに対して3D Convolutional Network (ConvNet) 特徴量に基づいて一連のチューブ提案が生成されます。最後に、異なるクリップのチューブ提案をネットワークフローを使用して連結し、これらの連結されたビデオ提案を使用して時空間的な動作検出を行います。いくつかのビデオデータセットにおける広範な実験により、T-CNNが最新技術と比較してトリミング済みおよび未トリミングのビデオにおける動作分類と位置特定で優れた性能を示すことが確認されました。

Tube Convolutional Neural Network (T-CNN) を用いた動画における行動検出 | 最新論文 | HyperAI超神経