2 个月前

利用时间上下文进行视频动作识别

Minji Kim; Dongyoon Han; Taekyung Kim; Bohyung Han

摘要

我们提出了一种新颖的视频理解框架，称为时间上下文化的CLIP（TC-CLIP），该框架通过在视频的空间-时间域内进行全局交互来利用关键的时间信息。具体而言，我们引入了时间上下文化（Temporal Contextualization, TC）机制，这是一种逐层注入时间信息的方法，其主要步骤包括：1）从每一帧中提取核心信息；2）跨帧连接相关信息以生成上下文标记；3）利用这些上下文标记进行特征编码。此外，视频条件提示（Video-conditional Prompting, VP）模块处理上下文标记，生成文本模态中的信息提示。大量的实验验证了我们的模型在零样本、少样本、基础到新类以及全监督动作识别任务中的有效性。针对TC和VP的消融研究也支持了我们的设计选择。我们的项目页面及源代码可在https://github.com/naver-ai/tc-clip 获取。