
要約
深層学習は、過去10年間で単眼画像から人間の頭部姿勢を予測する分野において著しい成功を収めてきました。しかし、実世界の入力に対して研究コミュニティは主に半合成的な性質を持つ単一の訓練データセット、300W-LPに依存しており、多くの代替手段が存在していません。本論文では、データの段階的な拡張と改善に焦点を当て、増強や合成戦略によって達成可能な性能をさらに探求します。モデル設計面では、不確実性推定を含む新しいマルチタスクヘッド/ロス設計が提案されています。全体的に、このように得られたモデルは小型で効率的であり、完全な6自由度(6 DoF)姿勢推定に適しており、非常に競争力のある精度を示しています。