2 个月前

RT-GENE：自然环境下的实时眼动估计

{Hyung Jin Chang, Yiannis Demiris, Tobias Fischer}

摘要

在本研究中，我们探讨了在自然环境中实现鲁棒眼动估计的问题。此类环境中普遍存在摄像机与被试者之间距离较远，以及头部姿态和视线角度变化较大的特点。这导致当前最先进的眼动估计方法存在两大主要局限：一是难以获取准确的真值视线标注，二是随着图像分辨率随距离增加而下降，眼动估计精度显著降低。为此，我们首先在自然环境中采集了一个全新的、涵盖多样化视线与头部姿态的图像数据集。为解决真值标注难题，我们采用动作捕捉系统测量头部姿态，并利用便携式眼动追踪眼镜获取眼球注视方向。为弥合训练与测试图像之间的差异，我们对眼镜遮挡区域应用语义图像修复（semantic image inpainting）技术，以消除眼镜带来的视觉干扰。此外，我们提出了一种新型实时算法，采用具有更强表达能力的基于外观的深度卷积神经网络，以应对新数据集中图像多样性带来的挑战。我们基于该网络架构，在多个多样化的眼动数据集上进行了实验，包括我们自建的数据集以及跨数据集的评估。实验结果表明，该方法在所有测试场景中均达到了当前最优的估计精度，且在低分辨率图像上仍能保持良好的性能表现。