AiOS: 全工程一括 表現人間ポーズと形状推定

表現豊かな人間の姿勢と形状推定(別名:3D全身メッシュ回復)は、人間の体、手、表情の推定を含む。既存の方法の多くは、このタスクを2段階で取り組んできた。まず市販の検出モデルを使用して人間の体部位を検出し、次に各部位を個別に推定するという手法である。これらの方法は印象的な結果を達成しているが、1) クロッピングによる貴重なコンテキスト情報の損失、2) 混乱要素の導入、3) 異なる人物や体部位間での相互関連性の欠如により、特に混雑したシーンでは性能が低下するという問題がある。これらの課題に対処するために、私たちは追加の人間検出ステップなしで複数人の表現豊かな姿勢と形状を回復するための新しい一括処理フレームワークAiOS(All-in-One-Stage)を提案する。具体的には、DETRに基づいて構築しており、多人数全身メッシュ回復タスクを様々な順序的な検出と共に進行的な集合予測問題として扱っている。私たちはデコーダトークンを設計し、それを当該タスクに拡張している。具体的には、まずヒューマントークンを使用して画像中の人間位置を探し出し、各インスタンスに対してグローバル特徴量をエンコードすることで後続のトランスフォーマーブロックに粗い位置情報を提供する。次に、ジョイント関連トークンを使用して画像中の人間関節を探し出し、細かい局所特徴量をエンコードする。これによりグローバル特徴量と協調して全身メッシュを回帰することが可能となる。この単純ながら効果的なモデルはAGORAデータセットでNMVE(Normalized Mean Vertex Error)が9%減少し、EHFデータセットでPVE(Procrustes Aligned Vertex-to-Vertex Error)が30%減少し、ARCTICデータセットでPVEが10%減少し、EgoBodyデータセットでPVEが3%減少するなど、以前の最先端手法を超える性能を発揮している。