17日前
深さ方向分離型時系列畳み込みネットワークを用いたアクションセグメンテーション
{Heiko Neumann, Wolfgang Mader, Christian Jarvers, Basavaraj Hampiholi}
要約
長時間かつトリムされていないRGB動画における細粒度な時系列行動分割は、視覚的情報処理における人間と機械のインタラクション分野における重要な課題である。近年の時系列畳み込みに基づくアプローチは、エンコーダデコーダ(ED)アーキテクチャを採用するか、連続する畳み込み層で倍率を2倍にするドイルーション(dilation)を用いることで、動画内の行動を分割している。しかし、EDネットワークは低時間分解能で動作するため、時間的細部の把握が困難であり、連続層におけるドイルーションはグリッドアーティファクト(gridding artifacts)という問題を引き起こす。本研究では、時間分解能を完全に維持しつつ、グリッドアーティファクトの影響を低減できる、深度可分時系列畳み込みネットワーク(Depthwise Separable Temporal Convolution Network; DS-TCN)を提案する。DS-TCNの基本構成要素は、残差型深度可分ドイルーションブロック(Residual Depthwise Dilated Block; RDDB)である。本研究では、大きなカーネルサイズと小さなドイルーション率の間のトレードオフをRDDBを用いて検討した。その結果、DS-TCNが長距離の時系列依存関係と局所的な時間的特徴を効率的に捉える能力を有することを示した。GTEA、50Salads、Breakfastの3つのベンチマークデータセットにおける評価において、従来のED-TCNおよびドイルーションベースのTCNベースラインと比較して、パラメータ数が少なくても、DS-TCNが優れた性能を発揮することを確認した。