8ヶ月前

概要

3D姿勢推定は、コンピュータビジョンにおいて非常に価値のあるタスクであり、様々な実用的な応用があります。特に、単眼ビデオからの多人数の3D姿勢推定（3DMPPE）は非常に難しく、まだ未開拓の領域であり、野生環境での適用にはほど遠い状況にあります。既存の手法には解決されていない3つの問題があります：訓練中に見られなかった視点に対する堅牢性の欠如、遮蔽への脆弱性、および出力における著しいジッタリングです。これらの課題を解決するために、私たちはPOTR-3Dを提案します。これは、3DMPPE向けの初のシーケンス・ツー・シーケンス2Dから3Dへのリフティングモデルで、新しい幾何学意識型データ拡張戦略によって駆動され、多様な視点を持つ無制限のデータを生成しながら地面と遮蔽に配慮することができます。多数の実験を通じて、提案されたモデルとデータ拡張が異なる未見視点に対して堅牢に一般化し、重度の遮蔽にもかかわらず姿勢を堅牢に復元し、より自然で滑らかな出力を信頼性高く生成することを確認しました。私たちのアプローチの有効性は、公開ベンチマークでの最先端性能の達成だけでなく、より挑戦的な野生環境ビデオでの定性的結果によっても検証されています。デモビデオは以下のURLでご覧いただけます：https://www.youtube.com/@potr3d。

ソースPDF コードを表示