要約
視線推定は、人間の視覚的注意を理解する上で重要なタスクである。近年のアルゴリズムの進展により性能は向上したものの、頭部姿勢の変化や非一様な照明条件下で生じる両眼の外観非対称性のため、依然として課題が残っている。本論文では、両眼特徴を効果的かつ効率的に活用するための新規アーキテクチャ、エージェント誘導型視線推定ネットワーク(AGE-Net)を提案する。外観の非対称性およびその結果として生じる特徴空間の非対称性に着目し、メインブランチと2つのエージェント回帰タスクを設計した。メインブランチは低レベルの意味情報を用いて左右両眼に関連する特徴を抽出する。一方、エージェント回帰タスクは高レベルの意味情報を用いて左右両眼の非対称特徴を抽出し、それらをもってメインブランチがより豊かな眼領域特徴空間を学習できるように誘導する。実験の結果、本手法はMPIIGazeおよびEyeDiapデータセットの両方において、最先端の視線推定性能を達成した。