
要約
人間のポーズ推定において、ヒートマップは実質的な標準的な座標表現として広く用いられているが、我々が知る限り、その性質については体系的な研究がなされていない。本研究では、このギャップを埋めるために、特にヒートマップに注目した座標表現の検討を行う。興味深いことに、予測されたヒートマップを元の画像空間における最終的な関節座標に復元するプロセスが、人間のポーズ推定性能にとって極めて重要であることが明らかになった。この重要性は、これまでの研究では認識されていなかった。この発見を踏まえ、既存の手法で広く用いられている標準的な座標復号法の設計上の制約をさらに深く分析し、より原理的な分布に配慮した復号法を提案する。同時に、標準的な座標符号化プロセス(すなわち、真の座標をヒートマップに変換するプロセス)を改善し、モデルの訓練におけるバイアスを回避するための高精度なヒートマップ分布を生成する。これらを統合して、キーポイントの分布に配慮した新たな座標表現手法、すなわち「DARK(Distribution-Aware coordinate Representation of Keypoint)」を提案する。DARKはモデルに依存しないプラグイン型の手法として設計されており、多数の最先端人間ポーズ推定モデルにおいて性能を顕著に向上させることを実証した。広範な実験により、MPIIおよびCOCOという2つの代表的なベンチマークにおいて、DARKが一貫して最良の結果を達成した。これにより、本研究で提唱する新たな座標表現の有効性と実用性が確実に裏付けられた。