9 天前

弱监督物理无约束视线估计

Rakshit Kothari, Shalini De Mello, Umar Iqbal, Wonmin Byeon, Seonwook Park, Jan Kautz
弱监督物理无约束视线估计
摘要

在无物理约束条件下的 gaze 估计面临的一大挑战,是难以获取适用于真实场景与户外环境的带 3D gaze 标注的训练数据。相比之下,无约束环境下人类交互的视频数据极为丰富,且更容易标注帧级活动标签。在本研究中,我们首次探索并解决了从人类交互视频中进行弱监督 gaze 估计的问题。我们基于一个重要观察:当人们执行“相互对视”(Looking At Each Other, LAEO)这一行为时,存在强烈的眼球方向与几何结构约束。为从 LAEO 标签中获取有效的 3D gaze 监督信号,我们提出了一种新的训练算法,并设计了多种专为该任务量身定制的新型损失函数。借助 CMU-Panoptic 与 AVA-LAEO 两个大规模活动数据集提供的弱监督信号,我们在(a)半监督 gaze 估计的准确性,以及(b)在当前最先进的无约束户外 gaze 估计基准 Gaze360 上的跨域泛化能力方面,均取得了显著提升。相关代码已开源,地址为:https://github.com/NVlabs/weakly-supervised-gaze。