
摘要
在以自我为中心的视频中,人类行为通常是由手与物体的互动组成,这些互动由一个动词(由手执行)应用于某个物体。尽管以自我为中心的数据集已经大规模扩展,但仍面临两个限制——行为组合的稀疏性和交互对象的封闭集合。本文提出了一种新颖的开放词汇表行为识别任务。给定一组在训练过程中观察到的动词和物体,目标是将这些动词泛化到包含已见和新物体的开放词汇表行为中。为此,我们通过一个与物体无关的动词编码器和一个基于提示的物体编码器来解耦动词和物体预测。提示机制利用CLIP表示来预测开放词汇表中的交互对象。我们在EPIC-KITCHENS-100和Assembly101数据集上创建了开放词汇表基准;而封闭动作方法无法泛化,我们提出的方法则表现出有效性。此外,我们的物体编码器在识别新交互对象方面显著优于现有的开放词汇表视觉识别方法。