
3次元人体ポーズ推定(3D HPE)タスクは、2次元画像または動画を用いて、人体の関節座標を3次元空間で予測することを目的としている。近年の深層学習に基づく手法の進展にもかかわらず、これらの手法は利用可能なテキスト情報と人間の自然な知識を組み合わせる能力をほとんど無視しており、3D HPEタスクをガイドする上で貴重な暗黙的な教師信号を損なっている。さらに、従来のアプローチは主に人体全体の視点からこのタスクを検討しており、各身体部位に隠された細分化された指導情報に十分に注目していない。こうした課題に対応するため、本研究では、拡散モデルに基づく新しい細分化されたプロンプト駆動型ノイズ除去器「FinePOSE」を提案する。FinePOSEは、拡散モデルの逆過程を強化する3つの核心モジュールから構成されている。(1)細分化された部位認識型プロンプト学習(FPP)モジュールは、利用可能なテキストと身体部位に関する自然な知識を、学習可能なプロンプトと連携させることで、細分化された部位認識型プロンプトを構築し、暗黙的な指導情報をモデル化する。(2)細分化されたプロンプト・ポーズ通信(FPC)モジュールは、学習された部位認識型プロンプトとポーズの間で細分化された情報交換を確立し、ノイズ除去の品質を向上させる。(3)プロンプト駆動型タイムスタンプスタイル化(PTS)モジュールは、学習されたプロンプト埋め込みとノイズレベルに関連する時系列情報を統合し、各ノイズ除去ステップでの適応的調整を可能にする。公開の単一人体ポーズ推定データセットにおける広範な実験により、FinePOSEが最先端手法を上回ることを示した。さらに、FinePOSEを複数人体ポーズ推定に拡張した結果、EgoHumansデータセットにおいて平均MPJPEが34.3mmを達成し、複雑な複数人体シナリオに対応する可能性を示した。コードは https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024 にて公開されている。