
要約
頭姿勢推定は、画像から正確な姿勢を予測することを目的とする。現在の手法は主に教師あり深層学習に依存しており、これには大規模なラベル付きデータが通常必要となる。頭姿勢の手動またはセンサベースのラベル付けは誤差の発生しやすい。解決策として、3D顔モデルをレンダリングすることで合成学習データを生成する方法が提案されている。しかし、レンダリングされた(ソースドメイン)画像と現実世界の(ターゲットドメイン)画像との間に生じる差異(ドメインギャップ)により、性能が低下する場合がある。視覚的ドメイン適応(visual domain adaptation)の進展により、敵対的ニューラルネットワークを用いてドメイン間の特徴空間を一致させ、ドメイン不変特徴を強制することで、ドメイン差の影響を低減できる。しかし、従来の視覚的ドメイン適応の研究は、一般的に離散的かつ共有されるラベル空間を仮定しているが、これらは頭姿勢推定タスクにおいて両方とも成り立たない。本研究は、部分的に共有され、連続的なラベル空間を考慮した頭姿勢推定におけるドメイン適応を初めて提案する。具体的には、訓練中にソースドメインを重み付き再サンプリングする手法を適用し、主流の重み付けアプローチを連続的ラベル空間に適応する。本手法の評価のため、既存データセットを改訂・拡張し、視覚的ドメイン適応のための新たなベンチマークを構築した。実験の結果、合成画像からのみラベルを使用しても、実世界画像における頭姿勢推定の精度が向上することが示された。