広範囲かつ短距離の頭部姿勢推定の表現と手法

ヘッドポーズ推定(HPE)は、半正面や横顔の設定で顔処理タスクの性能を向上させるために、コンピュータビジョン分野において注目される問題である。最近のアプリケーションでは、顔を360度の回転範囲で分析する必要が生じている。従来の半正面および横顔の場合を解決するアプローチは、完全な回転範囲には直接適用できない。本論文では、短距離および広範囲のHPEにおける手法を分析し、それぞれのケースに適した表現と指標について議論する。我々は、一般的に使用されているオイラー角表現が短距離HPEには良い選択であるが、極端な回転では適していないことを示す。しかし、オイラー角のジンバルロック問題により、どのような設定でも有効な指標として使用することはできない。また、現在のクロスデータセット評価手法を見直し、学習データセットとテストデータセットの参照系間のずれが存在することで、文献中のすべての記事の結果が負にバイアスされることを指摘する。このずれを定量的に評価する手順と、300W-LP|Biwiベンチマークにおける新しいクロスデータセットHPE手法を導入し、より正確な最新技術(SOTA)を確立する。さらに、測地線角度距離指標の一般化を行い、各学習サンプルがモデルの最適化に与える影響を制御できる損失関数を作成可能にする。最後に、CMUパノプティックデータセットに基づく広範囲HPEベンチマークを導入する。以上が原文に基づいた日本語訳です。内容や専門用語については以下の通りに対応しています:ヘッドポーズ推定 (Head pose estimation)オイラー角 (Euler angles)ジンバルロック (Gimbal lock)クロスデータセット評価手法 (Cross-data set evaluation methodology)測地線角度距離指標 (Geodesic angular distance metric)最新技術 (State of the art, SOTA)これらの用語は一般的に使用される日本語での表現を使用しており、専門的な内容も正確に翻訳されています。また、「300W-LP|Biwi」などの固有名詞はそのまま表記しています。