2 个月前

基于查询自适应变换器的少样本时序动作定位

Nag, Sauradip ; Zhu, Xiatian ; Xiang, Tao
基于查询自适应变换器的少样本时序动作定位
摘要

现有的时间动作定位(Temporal Action Localization, TAL)研究依赖于大量带有详尽片段级注释的训练视频,这阻碍了它们扩展到新的类别。为了解决这一问题,少样本时间动作定位(Few-Shot Temporal Action Localization, FS-TAL)旨在通过尽可能少的视频(甚至单个视频)来适应新类别。现有的 FS-TAL 方法假设新类别的训练视频是剪辑过的。然而,这种设置不仅不自然,因为通常动作是在未剪辑的视频中捕捉到的,而且还忽略了包含重要背景信息的视频片段,这些背景信息对于前景动作分割至关重要。在本工作中,我们首先提出了一种新的 FS-TAL 设置,即使用未剪辑的训练视频。此外,我们还提出了一种新颖的 FS-TAL 模型,该模型在最大化从训练类别中转移知识的同时,能够动态地适应新类别及其每个视频。这是通过在模型中引入查询自适应 Transformer 来实现的。我们在两个动作定位基准数据集上进行了广泛的实验,结果表明我们的方法在单域和跨域场景下均显著优于所有现有最先进的替代方案。源代码可在 https://github.com/sauradip/fewshotQAT 获取。

基于查询自适应变换器的少样本时序动作定位 | 最新论文 | HyperAI超神经