
要約
単眼RGBに基づく3次元ポーズおよび形状推定において、遮蔽や断片化などの要因により、複数の解が得られることがよくある。本研究では、データ分布とモデル分布の間のカルバック・ライブラー距離(KLD)を最適化することで、複数の仮説を扱う確率的枠組みを提案する。我々の定式化により、従来の研究で無視されてきたポーズのエントロピーと複数仮説の多様性との関係が明らかになった。包括的な評価のため、最良の仮説(BH)指標に加え、可視性を考慮した多様性評価を導入している。さらに、本フレームワークはラベルに優しく、例えば可視部分の2次元キーポイントのみから学習が可能である。曖昧なデータセットおよび実世界のベンチマークにおける実験により、本手法が他の最先端の複数仮説手法と比較して、包括的な評価において優れた性能を発揮することが示された。プロジェクトページは以下の通り:https://gloryyrolg.github.io/MHEntropy。