
要約
微細な動作の同時セグメンテーションと分類は、ヒューマン-ロボット相互作用、ビデオ監視、および人間のスキル評価などの応用において重要です。しかし、大規模な動作分類における最近の著しい進歩にもかかわらず、最先端の微細な動作認識手法の性能は依然として低くなっています。本研究では、低レベルの空間時間特徴量と高レベルのセグメント分類器を組み合わせた動作セグメンテーションモデルを提案します。我々の空間時間CNNは、物体とその関係性に関する情報を捉えるために畳み込みフィルタを使用する空間成分と、物体関係性が時間とともにどのように変化するかに関する情報を捉えるために大きな1次元畳み込みフィルタを使用する時間成分から構成されています。これらの特徴量は、一つの動作から別の動作への遷移をモデル化する半マルコフモデルと共に使用されます。本研究では、このモデルのために制約付きセグメンタル推論アルゴリズムを導入し、現行アプローチよりも桁違いに高速であることを示しています。我々は、調理と手術動作データセットにおいて、最近の基準手法に比べて大幅に性能が向上することを確認しており、Segmental Spatiotemporal CNN(セグメンタル空間時間CNN)の有効性を強調しています。