17 天前

ASQuery:一种基于查询的动作分割模型

{Zhao Jian, Xing Junliang, Li Jianshu, Wang Zhecan, Li Liang, Li Zhou, Zheng Wang, Nie Lei, Jin Lei, Gan Ziliang}
摘要

在时间动作分割任务中,现有方法通常将其视为逐帧分类问题。本文提出了一种简洁而有效的模型——ASQuery,该模型通过学习每一类动作的中心表示,将分类问题转化为类别特定查询与帧特征之间的相似性计算。这些中心表示由我们提出的Transformer解码器模块动态生成,从而赋予模型对整个视频更灵活、更全面的感知能力。此外,本文首次引入边界查询(boundary query)以优化分割结果,有效缓解了令人困扰的过分割问题。在两个公开的动作分割数据集(Breakfast 和 Assembly101)上,ASQuery 在平均指标上分别取得了 0.9% 和 4.1% 的性能提升,显著优于当前最先进模型。项目源代码已开源,地址为:https://github.com/zlngan/ASQuery。