
要約
骨格ベースの行動認識における重要な課題の一つは、すべての骨格ジョイントから判別力のある特徴量を抽出する方法である。しかし、このタスクにおける最近の最先端(SOTA)モデルは、極めて複雑かつパラメータ過多な傾向にあり、モデルの学習および推論における低効率が、大規模データセットにおけるモデルアーキテクチャの検証コストを著しく増加させている。この問題に対処するため、最近の高度な分離可能畳み込み層(separable convolutional layers)を、初期融合型の複数入力ブランチ(Multiple Input Branches: MIB)ネットワークに組み込み、骨格ベース行動認識用の効率的なグラフ畳み込みネットワーク(GCN)ベースラインを構築した。さらに、このベースラインを基盤として、モデルの幅(width)と深さ(depth)を同期的に拡張する複合スケーリング戦略を設計し、高精度かつトレーニング可能なパラメータ数が少ない一連の効率的GCNベースライン、すなわちEfficientGCN-Bx(xはスケーリング係数)を構築した。NTU RGB+D 60および120という2つの大規模データセットにおいて、提案するEfficientGCN-B4ベースラインは、他のSOTA手法を上回り、NTU 60データセットのクロスサブジェクトベンチマークにおいて91.7%の精度を達成した。また、最も優れたSOTA手法の一つであるMS-G3Dと比較して、モデルサイズは3.15倍小さく、推論速度は3.21倍速い。PyTorch実装のソースコードおよび事前学習済みモデルは、https://github.com/yfsong0709/EfficientGCNv1 にて公開されている。