
要約
長時間の未編集動画におけるアクションセグメントの時刻的な位置特定と分類は、監視やロボティクスなどの多くの応用分野において特に重要です。従来の手法では、フレームごとの確率を生成し、それを高レベルの時系列モデルに供給するという二段階のパイプラインが採用されていましたが、最近の手法では、時系列畳み込みを用いて直接動画フレームを分類しています。本論文では、時系列アクションセグメンテーションタスク向けのマルチステージアーキテクチャを提案します。各ステージでは、ディラテッド時系列畳み込み(dilated temporal convolutions)の一連のセットを使用して初期予測を生成し、次のステージでその予測が洗練されます。このアーキテクチャは、分類損失と提案された平滑化損失(smoothing loss)の組み合わせで学習され、過剰なセグメンテーションエラーに対して罰則を与えます。広範な評価により、提案モデルが長期依存関係を捉え、アクションセグメントを認識する効果性が示されました。我々のモデルは、50Saladsデータセット、Georgia Tech Egocentric Activities (GTEA) データセット、およびBreakfastデータセットという3つの難易度が高いデータセットにおいて最先端の結果を達成しています。