
要約
本研究では、自然環境におけるロバストな視線推定の問題に着目する。このような環境では、カメラと被験者間の距離が大きく、頭部ポーズや目の視線角度の変動も顕著である。このため、最新の視線推定手法には二つの主要な課題が存在する。第一に、画像解像度が距離に伴って低下する中で、正確な真値(ground truth)視線ラベルの付与が困難になること。第二に、画像解像度の低下に伴い、視線推定の精度が著しく低下する点である。本研究では、自然環境下で多様な視線および頭部ポーズを含む新たなデータセットを収集した。真値ラベルの付与に関しては、モーションキャプチャシステムを用いて頭部ポーズを測定し、モバイル眼動計(eyetracking glasses)を用いて目の視線を計測することで、高精度なラベルを取得した。また、眼動計の装着によって画像に生じる視覚的干渉を除去するため、セマンティック画像補完(semantic image inpainting)を適用し、訓練画像とテスト画像の間のギャップを埋めることで、モデルの汎化性能を向上させた。さらに、新データセットに含まれる多様な画像を適切に処理できるよう、容量を拡張した外見ベースの深層畳み込みニューラルネットワークを用いた新しいリアルタイム推定アルゴリズムを提案する。本ネットワークアーキテクチャは、自らが収集したデータセットをはじめとする多数の異なる眼視線データセットを用いて実験を行い、データセット間での交差評価(cross-dataset evaluation)も実施した。その結果、すべての実験において最先端の推定精度を達成した。さらに、低解像度画像に対しても良好な性能を発揮することが確認された。