2ヶ月前
人間-物体相互作用のための詳細な2D-3D結合表現
Li, Yong-Lu ; Liu, Xinpeng ; Lu, Han ; Wang, Shiyi ; Liu, Junqi ; Li, Jiefeng ; Lu, Cewu

要約
Human-Object Interaction (HOI) 検出は行動理解の核心に位置しています。人間や物体の外観や位置などの2D情報だけでなく、視点に依存しない特性から3D姿勢も通常HOI学習で利用されます。しかし、粗い3D骨格は疎な身体情報をしか持たず、複雑な相互作用を理解するには十分ではありません。したがって、詳細な3D身体形状が必要となります。また、3Dでの相互作用する物体についてもHOI学習において十分に研究されていません。これらの課題を踏まえて、我々は詳細な2D-3D結合表現学習方法を提案します。まず、単一視点の人間体捕捉手法を使用して詳細な3D身体、顔、手の形状を取得します。次に、2Dの人間-物体空間構成と物体カテゴリの事前知識を参照しながら3D物体の位置とサイズを推定します。最後に、結合学習フレームワークとクロスモーダル一致性タスクを提案し、結合HOI表現を学習します。モデルの2D曖昧性処理能力をより適切に評価するために、難易度の高い曖昧画像からなる新しいベンチマークAmbiguous-HOI(「曖昧-HOI」)を提案しました。大規模HOIベンチマークおよびAmbiguous-HOIにおける広範な実験により、当方針法の効果性が著しく示されています。コードとデータはhttps://github.com/DirtyHarryLYL/DJ-RN で入手可能です。