9日前
エンドツーエンド型ビデオ視線推定:頭顔目の空間時間的相互作用コンテキストを捉える手法
Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, Yang Xiao

要約
本稿では、頭部、顔面、眼球の空間時系列的相互作用コンテキストをエンドツーエンド学習の枠組みで捉えることで、動画上の視線推定を支援する新しい手法、Multi-Clue Gaze(MCGaze)を提案する。これまでこの空間時系列的コンテキストは十分に注目されていなかった。MCGazeの主な利点は、頭部、顔面、眼球の手がかりの局所化というタスクを、一度のステップで統合的に解決でき、共同最適化によって最適な性能を追求できる点にある。この過程において、頭部、顔面、眼球に存在する手がかり間で空間時系列的コンテキストの交換が生じる。その結果、複数のクエリから得られる特徴を統合することで得られる最終的な視線推定は、頭部や顔面からのグローバルな手がかりと、眼球からのローカルな手がかりの両方を同時に捉えることができる。これにより、性能の向上が本質的に実現される。また、一度のステップで処理が完了するアーキテクチャであるため、高い実行効率も確保される。困難なGaze360データセットを用いた実験により、本手法の優位性が検証された。ソースコードは、https://github.com/zgchen33/MCGaze にて公開される予定である。