
要約
単眼の頭部姿勢推定には、人間の顔の入力画像から姿勢(ヨー、ピッチ、ロール)の固有のオイラー角を計算するモデルを学習することが必要です。野生環境での画像に対する地面真の頭部姿勢角度をアノテーションすることは困難であり、特設的な適合手順が必要となります(これは粗いおよび近似的なアノテーションしか提供しません)。これにより、制御された環境で取得したデータを学習し、野生環境での画像(顔の外観や照明が異なる場合も含む)に一般化できる手法の必要性が強調されます。現在の深層学習アプローチの大半は、入力画像に対して直接回帰関数を学習しようとするものですが、そのような手法ではこの要件を満たすことができません。これを解決するために、深層学習アーキテクチャを使用しながら、より高いレベルの表現を利用して頭部姿勢を回帰することを提案します。具体的には、左耳、右耳、左目、右目、鼻という5つの顔部位キーポイント上の2次元ソフト位置特定ヒートマップ形式の不確実性マップを使用し、それを畳み込みニューラルネットワークを通じて頭部姿勢を回帰します。我々はBIWIとAFLWという2つの挑戦的なベンチマークにおいて頭部姿勢推定結果を示し、本手法は両データセットで最先端技術を超える性能を達成しています。