
要約
単一のRGB画像から全範囲の頭部ヨー角(head yaw)を推定するエンドツーエンド型の頭部姿勢推定ネットワークを提案する。既存の手法は正面視点では優れた性能を発揮するが、すべての視点からの頭部姿勢推定を対象としているものは少ない。本研究の応用分野には自動運転や小売業が含まれる。本ネットワークはマルチロスアプローチに基づき、広範囲の姿勢推定に適した損失関数および学習戦略の改良を施している。さらに、現在利用可能なパンオプティックデータセットから前向き視点の真値ラベルを初めて抽出した。その結果得られた「Wide Headpose Estimation Network(WHENet)」は、全範囲の頭部ヨー角(「wide」として特徴づけられる)に対応可能な、初めての細粒度な現代的アプローチであり、同時に正面視点の頭部姿勢推定においても最先端の手法と同等またはそれ以上の性能を達成している。本ネットワークはコンパクトかつ効率的であり、モバイルデバイスや実用応用に適している。