
要約
単一人物の姿勢推定は、スポーツ分野におけるマーカーレスな動き解析や臨床応用において重要な役割を果たしている。しかし、現在の最先端の姿勢推定モデルは、実世界の応用要件を満たすには至っていない。深層学習技術の発展により、多くの先進的なアプローチが開発されてきたが、分野の進展に伴い、より複雑で非効率なモデルも増加しており、計算資源の要求が著しく増大している。こうした複雑さと非効率性の課題に対応するため、本研究では、近年提案されたEfficientNetを活用することで、効率的かつスケーラブルな単一人物姿勢推定を実現する新たな畳み込みニューラルネットワークアーキテクチャ、EfficientPoseを提案する。EfficientPoseは、効果的なマルチスケール特徴抽出機構と、モバイル逆転バトルネック畳み込み(mobile inverted bottleneck convolutions)を用いた計算効率の高い検出ブロックを統合したモデル群であり、同時に姿勢配置の精度も向上を実現している。低複雑性と高効率性を実現した本モデルは、メモリ使用量と計算コストを制限することで、エッジデバイス上での実世界応用を可能にする。我々が実施した実験(挑戦的なMPII単一人物ベンチマークを用いて)の結果から、提案するEfficientPoseモデルは、精度および計算効率の両面で広く使用されているOpenPoseモデルを大きく上回ることが明らかになった。特に、最も優れた性能を示すモデルは、低複雑性のConvNetを用いながらも、単一人物MPIIベンチマークにおいて最先端の精度を達成している。