
摘要
时间动作分割在理解长视频内容方面具有重要意义。以往该任务的研究多采用多阶段模型的迭代精炼范式。本文提出一种基于去噪扩散模型的新型框架,尽管采用生成式建模方法,但仍继承了迭代精炼的核心思想。在该框架中,动作预测通过从随机噪声出发,以输入视频特征作为条件,逐步迭代生成。为更好地建模人类动作的三大显著特性——位置先验、边界模糊性以及动作间的依赖关系,我们设计了一种统一的掩码策略,用于框架中的条件输入。在三个基准数据集(GTEA、50Salads 和 Breakfast)上的大量实验表明,所提方法在性能上优于或至少可与当前最优方法相媲美,充分验证了生成式方法在动作分割任务中的有效性。