9 天前

第一人称动作预测的交互区域视觉Transformer

Debaditya Roy, Ramanathan Rajendiran, Basura Fernando
第一人称动作预测的交互区域视觉Transformer
摘要

人体与物体的交互是视觉感知中最重要的线索之一。本文提出一种新颖的方法,用于表征第一人称视角下的动作预测任务中的人体-物体交互。我们设计了一种新型的Transformer变体,通过计算动作执行过程中物体和人手外观的变化来建模交互,并利用这些变化特征对视频表示进行优化。具体而言,我们采用空间交叉注意力(Spatial Cross-Attention, SCA)建模手与物体之间的交互关系,并进一步引入轨迹交叉注意力(Trajectory Cross-Attention)以融合上下文信息,从而获得环境感知增强的交互特征令牌(interaction tokens)。基于这些令牌,我们构建了一种以交互为中心的视频表示,用于动作预测。我们将该模型命名为InAViT,在大规模第一人称视角数据集EPICKITCHENS100(EK100)和EGTEA Gaze+上均取得了当前最优的预测性能。在基于EK100的公开评测服务器上,InAViT在提交时位居榜首,其平均Top-5召回率相较于第二名模型提升了3.3%,显著优于其他基于视觉Transformer的方法,包括以物体为中心的视频表示方法。