
私たちは連続的な、トリミングされていないビデオストリームにおける時間的活動検出の問題に取り組んでいます。これは、活動を捉えるための意味のある空間時間特徴を抽出し、各活動の開始時刻と終了時刻を正確に特定する必要がある難しい課題です。私たちは新しいモデルであるRegion Convolutional 3D Network (R-C3D)を導入します。このモデルは、3次元完全畳み込みネットワークを使用してビデオストリームを符号化し、その後、活動を含む候補の時間的領域を生成し、最後に選択された領域を特定の活動に分類します。提案と分類パイプライン間での畳み込み特徴の共有により計算量が削減されます。さらに、光学フローに基づく運動ストリームを効率的に統合することで検出性能が向上します。2ストリームネットワークは、異なるレベルでフローマップとRGBマップを融合することにより共同最適化されます。また、訓練段階ではオンラインハード例マイニング戦略を取り入れることで、一般的な検出パイプラインで観察される極端な前景-背景の不均衡に対処しています。最終的な活動分類段階のために候補セグメントをヒューリスティックにサンプリングする代わりに、それらのパフォーマンスに基づいて順位付けを行い、最悪のパフォーマンスを持つもののみを選択してモデルを更新します。これによりハイパーパラメータ調整なしでモデルが改善されます。3つのベンチマークデータセットでの広範な実験を行った結果、既存の時間的活動検出方法よりも優れた性能が示されました。私たちのモデルはTHUMOS'14およびCharadesデータセットにおいて最先端の結果を達成しました。さらに、特定のデータセット特性に関する前提仮定に依存しない一般的な時間的活動検出フレームワークであることを示すためにActivityNetデータセット上でアプローチを評価しました。