
要約
本稿では、マルチペルソンポーズ推定において最先端の性能を達成する、単一パスかつエンドツーエンド学習可能なフレームワーク「OmniPose」を提案する。OmniPoseは、新規のウォーターフォールモジュールを用いて、後処理を必要とせずにバックボーン特徴抽出器の効果を高めるマルチスケール特徴表現を活用している。このアーキテクチャは、マルチスケール特徴抽出器において、スケール間の文脈情報を統合し、ガウシアンヒートマップ変調を用いた関節位置推定を行うことで、最先端の精度で人体ポーズを推定する。OmniPoseにおける改良されたウォーターフォールモジュールによって得られるマルチスケール表現は、カスケード構造における段階的フィルタリングの効率性を活かしつつ、空間ピラミッド構成と同等のマルチスケール視野を維持している。複数のデータセットにおける実験結果から、改良されたHRNetバックボーンとウォーターフォールモジュールを搭載したOmniPoseは、マルチペルソンポーズ推定において堅牢かつ効率的なアーキテクチャであり、最先端の性能を達成することが示された。