2ヶ月前

R-C3D: Region Convolutional 3D Network for Temporal Activity Detection R-C3D: 時間活動検出のための領域畳み込み3次元ネットワーク

Huijuan Xu; Abir Das; Kate Saenko
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection
R-C3D: 時間活動検出のための領域畳み込み3次元ネットワーク
要約

連続的な未編集ビデオストリームにおける活動検出の問題に取り組んでいます。この課題は、活動を捉えるための意味のある空間・時間特徴量を抽出し、各活動の開始時刻と終了時刻を正確に特定する必要があるため、非常に困難です。本研究では、新しいモデルであるRegion Convolutional 3D Network(R-C3D)を提案します。このモデルは、3次元完全畳み込みネットワークを使用してビデオストリームを符号化し、次に活動が含まれる候補の時間領域を生成し、最後に選択された領域を特定の活動に分類します。提案と分類のパイプライン間で畳み込み特徴量を共有することで計算量が削減されます。全体のモデルは、局所化と分類の損失関数を共同で最適化しながらエンドツーエンドで学習されます。R-C3Dは既存の手法よりも高速(単一のTitan X Maxwell GPUで1秒あたり569フレーム)であり、THUMOS'14において最先端の結果を達成しています。さらに、当モデルが特定のデータセットの特性に関する仮定に依存しない一般的な活動検出フレームワークであることを示すために、ActivityNetおよびCharadesでの評価を行いました。コードはhttp://ai.bu.edu/r-c3d/ から入手可能です。

R-C3D: Region Convolutional 3D Network for Temporal Activity Detection R-C3D: 時間活動検出のための領域畳み込み3次元ネットワーク | 最新論文 | HyperAI超神経