16日前
MS-TCN++:アクションセグメンテーションのためのマルチステージ時系列畳み込みネットワーク
Shijie Li, Yazan Abu Farha, Yun Liu, Ming-Ming Cheng, Juergen Gall

要約
短いトリム付き動画の分類においてディープラーニングが成功を収めたことを受けて、長時間のトリムなし動画における活動の時系列的セグメンテーションと分類に注目が集まっている。現在の最先端の行動セグメンテーション手法は、複数層の時系列畳み込み(temporal convolution)と時系列プーリング(temporal pooling)を用いている。これらの手法は時間的依存関係を捉える能力に優れているものの、予測結果には過剰セグメンテーション(over-segmentation)の誤りが生じるという課題がある。本論文では、従来手法の限界を克服するためのマルチステージアーキテクチャを提案する。最初のステージでは初期予測を生成し、その後のステージでその予測を段階的に精緻化する。各ステージでは、パラメータ数を抑えたまま広い受容 field(受容野)をカバーできる、膨張時系列畳み込み(dilated temporal convolutions)の複数層を積層する。このアーキテクチャは既に優れた性能を示すが、低層部では依然として受容野が小さいという問題が残っている。この課題を解決するために、大・小の両方の受容野を組み合わせる「デュアル膨張層(dual dilated layer)」を提案する。さらに、初期予測生成ステージと精緻化ステージの要件が異なることを踏まえ、これらを設計面で分離する。広範な評価により、提案モデルが長距離依存関係を効果的に捉え、行動セグメントを正確に認識できることを示した。本モデルは、50Salads、Georgia Tech Egocentric Activities(GTEA)、Breakfast の3つのデータセットにおいて、最先端の性能を達成した。