8ヶ月前

概要

我々は、単一の野生環境で撮影された画像から、人間と物体の空間配置および形状を全体的に一貫した3Dシーンに推論する方法を提案します。特に注目すべきは、本手法がシーンレベルや物体レベルでの3D監督情報なしのデータセット上で動作することです。我々の主要な洞察は、人間と物体を統合して考慮することで、「3D常識」制約が生まれ、曖昧性を解消できるという点にあります。具体的には、データから物体サイズの分布を学習するスケール損失；物体姿勢を最適化するための被塞感覚シルエット再投影損失（occlusion-aware silhouette re-projection loss）；そして人間と物体の相互作用を捉える人間-物体相互作用損失を導入しています。これらの制約が実際の3D空間構成の可能性空間を大幅に削減することを実証的に検証しました。本手法は、人間が大型物体（自転車、オートバイ、サーフボードなど）や手に持つ物体（ラップトップ、テニスラケット、スケートボードなど）と相互作用している挑戦的な野生環境での画像に対して適用し、その有効性を示しています。さらに、本手法の人間-物体配置復元能力について定量評価を行い、この分野における未解決課題も概説しています。プロジェクトウェブページは https://jasonyzhang.com/phosa でご覧いただけます。

ソースPDF コードを表示