2 个月前

ViTGaze:基于交互特征的视觉变换器中的注视跟随

Song, Yuehao ; Wang, Xinggang ; Yao, Jingfeng ; Liu, Wenyu ; Zhang, Jinglin ; Xu, Xiangmin
ViTGaze:基于交互特征的视觉变换器中的注视跟随
摘要

注视跟随旨在通过预测人的注视焦点来解释人与场景之间的互动。现有的方法通常采用两阶段框架,首先在初始阶段提取多模态信息以进行注视目标预测。因此,这些方法的有效性很大程度上取决于前一阶段模态提取的准确性。另一种方法则使用单模态方法并配备复杂的解码器,这增加了网络的计算负担。受预训练纯视觉变换器(ViTs)显著成功的启发,我们提出了一种新的单模态注视跟随框架,称为ViTGaze。与以往的方法不同,该框架主要基于强大的编码器(相对解码器参数少于1%),构建了一个新颖的注视跟随框架。我们的核心见解是,自注意力机制中的令牌间交互可以转化为人与场景之间的交互。基于这一假设,我们设计了一个包含4D交互编码器和2D空间引导模块的框架,从自注意力图中提取人与场景的交互信息。此外,我们的研究发现,经过自监督预训练的ViT具有更强的相关信息提取能力。为了展示所提方法的性能,我们进行了大量实验。结果表明,我们的方法在所有单模态方法中达到了最先进的(SOTA)性能(曲线下面积(AUC)得分提高了3.4%,平均精度(AP)提高了5.1%),并且在参数数量减少59%的情况下,其性能与多模态方法非常接近。