
摘要
在本研究中,我们探讨了在自然环境中实现鲁棒眼动估计的问题。此类环境中普遍存在摄像机与被试者之间距离较远,以及头部姿态和视线角度变化较大的特点。这导致当前最先进的眼动估计方法存在两大主要局限:一是难以获取准确的真值视线标注,二是随着图像分辨率随距离增加而下降,眼动估计精度显著降低。为此,我们首先在自然环境中采集了一个全新的、涵盖多样化视线与头部姿态的图像数据集。为解决真值标注难题,我们采用动作捕捉系统测量头部姿态,并利用便携式眼动追踪眼镜获取眼球注视方向。为弥合训练与测试图像之间的差异,我们对眼镜遮挡区域应用语义图像修复(semantic image inpainting)技术,以消除眼镜带来的视觉干扰。此外,我们提出了一种新型实时算法,采用具有更强表达能力的基于外观的深度卷积神经网络,以应对新数据集中图像多样性带来的挑战。我们基于该网络架构,在多个多样化的眼动数据集上进行了实验,包括我们自建的数据集以及跨数据集的评估。实验结果表明,该方法在所有测试场景中均达到了当前最优的估计精度,且在低分辨率图像上仍能保持良好的性能表现。