9 天前

语义引导的表示学习用于动作预测

Anxhelo Diko, Danilo Avola, Bardh Prenkaj, Federico Fontana, Luigi Cinque
语义引导的表示学习用于动作预测
摘要

动作预测(Action anticipation)是指从部分观测的动作序列中预测未来行为的任务。然而,该任务面临固有的未来不确定性,以及对相互关联动作进行推理的挑战。与以往侧重于外推更优视觉与时间信息的研究不同,本文聚焦于学习能够感知其语义关联性的动作表征,该表征基于典型动作模式和上下文共现关系。为此,我们提出了全新的语义引导表征学习框架——S-GEAR(Semantically Guided Representation Learning)。S-GEAR通过学习视觉动作原型,并利用语言模型来建模这些原型之间的语义关系,从而增强表征的语义性。为验证S-GEAR的有效性,我们在四个动作预测基准数据集上进行了测试,结果显著优于现有方法:在Epic-Kitchen 55、EGTEA Gaze+和50 Salads数据集上,Top-1准确率分别提升了3.5、2.7和3.5个百分点;在Epic-Kitchens 100数据集上,Top-5召回率提升了0.8个百分点。此外,我们观察到S-GEAR能够有效将语言模型中蕴含的动作间几何关联性迁移至视觉原型中。最终,S-GEAR通过揭示动作语义关联性对预测任务的复杂影响,为动作预测研究开辟了新的方向。

语义引导的表示学习用于动作预测 | 最新论文 | HyperAI超神经