6 个月前

摘要

动作识别模型在短视频片段中对人体动作分类方面展现出令人瞩目的能力。在真实场景中，多个相关的人体动作通常以特定顺序连续发生，构成具有语义意义的复合人类活动。传统动作识别方法主要聚焦于单一动作的分析，然而它们难以充分建模相邻动作之间的上下文关系，而这些关系为理解长视频提供了潜在的时间逻辑依据。本文提出一种基于提示（prompt）的框架——Bridge-Prompt（Br-Prompt），用于建模相邻动作之间的语义关联，从而能够同时利用一系列有序动作中的上下文外（out-of-context）与上下文（contextual）信息，尤其适用于教学类视频的分析。具体而言，我们重新设计了单个动作标签，将其转化为整合性的文本提示（text prompts）作为监督信号，以弥合单个动作语义之间的鸿沟。生成的文本提示与对应的视频片段配对，通过对比学习策略共同训练文本编码器与视频编码器。经过训练的视觉编码器在与有序动作相关的下游任务中表现出更强的性能，例如动作分割和人类活动识别。我们在多个视频数据集上评估了所提方法的性能：佐治亚理工学院第一人称活动数据集（GTEA）、50Salads 以及 Breakfast 数据集。实验结果表明，Br-Prompt 在多个基准测试中均达到了当前最优（state-of-the-art）水平。代码已开源，地址为：https://github.com/ttlmh/Bridge-Prompt。

源 PDF