
要約
現代の深層学習モデルが3次元人間行動認識における識別能力を急速に向上させています。最近の3次元骨格を使用した3次元人間行動表現の再興に伴い、その品質と進歩の速度は著しいものとなっています。しかし、最先端の学習ベースの手法における3次元人間行動認識の内部メカニズムは依然として大部分がブラックボックス状態です。本研究では、3次元人間行動認識のために新しいクラスのモデルである時系列畳み込みニューラルネットワーク(Temporal Convolutional Neural Networks: TCN)の使用を提案します。一般的なLSTMに基づく再帰型ニューラルネットワークモデルと比較して、解釈可能な入力(例:3次元骨格)を与えることで、TCNは3次元人間行動認識に適した明確に解釈可能な空間時間表現を学習する方法を提供します。私たちは、解釈可能性を重視してTCNを再設計する戦略と、そのようなモデル特性がどのように活用されて強力な3次元活動認識手法が構築されるかについて説明します。本研究を通じて、理解しやすく、説明可能で解釈可能な空間時間モデルへの一歩を踏み出したいと考えています。開発されたモデルであるRes-TCNは、最大規模の3次元人間行動認識データセットNTU-RGBDにおいて最先端の結果を達成しています。