2ヶ月前
時間畳み込みネットワークを用いた動作セグメンテーションと検出
Colin Lea; Michael D. Flynn; Rene Vidal; Austin Reiter; Gregory D. Hager

要約
ビデオ全体を通じて微細な人間の行動を識別し、時間的にセグメント化する能力は、ロボティクス、監視、教育など、さまざまな分野で重要です。一般的なアプローチでは、この問題を最初にビデオフレームから局所的な時空間特徴を抽出し、その後それらを高レベルの時間的パターンを捉えるための一連の時間分類器に入力することで解消しようとします。本研究では、Temporal Convolutional Networks(TCNs)と呼ぶ新しいクラスの時間モデルを導入します。TCNsは、時間畳み込みの階層構造を使用して微細な行動セグメンテーションや検出を行います。私たちが提案するEncoder-Decoder TCNはプーリングとアップサンプリングを使用して効率的に長期的な時間的パターンを捉えます。一方、Dilated TCNは拡張畳み込みを使用します。実験結果から、TCNsは行動の組成、セグメントの持続時間、長期的な依存関係を捉えることができることを示しています。また、競合するLSTMベースの再帰型ニューラルネットワークよりも一桁以上高速に学習できることも確認しました。これらのモデルを3つの挑戦的な微細データセットに適用し、現行の最先端技術に対する大幅な改善を示しています。