9 天前

基于捕捉头-脸-眼时空交互上下文的端到端视频注视估计

Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, Yang Xiao
基于捕捉头-脸-眼时空交互上下文的端到端视频注视估计
摘要

在本文中,我们提出了一种新方法——多线索注视(Multi-Clue Gaze, MCGaze),通过端到端学习方式捕捉头部、面部与眼睛之间的时空交互上下文,以促进视频注视估计。这一方面在以往研究中尚未得到充分关注。MCGaze的主要优势在于,能够以一步式联合优化的方式,同时完成头部、面部与眼睛线索的定位任务,从而实现注视估计的高效协同求解。在此过程中,头部、面部与眼睛上的各类线索之间发生时空上下文信息的交互与共享。由此,通过融合来自不同查询的特征所获得的最终注视结果,既能感知来自头部和面部的全局线索,又能捕捉眼睛的局部线索,从而显著提升性能表现。同时,一步式运行机制也保障了较高的推理效率。在具有挑战性的 Gaze360 数据集上的实验验证了所提方法的优越性。源代码将发布于 https://github.com/zgchen33/MCGaze。