HyperAI超神经

摘要

时间动作分割在理解长视频内容方面具有重要意义。以往该任务的研究多采用多阶段模型的迭代精炼范式。本文提出一种基于去噪扩散模型的新型框架，尽管采用生成式建模方法，但仍继承了迭代精炼的核心思想。在该框架中，动作预测通过从随机噪声出发，以输入视频特征作为条件，逐步迭代生成。为更好地建模人类动作的三大显著特性——位置先验、边界模糊性以及动作间的依赖关系，我们设计了一种统一的掩码策略，用于框架中的条件输入。在三个基准数据集（GTEA、50Salads 和 Breakfast）上的大量实验表明，所提方法在性能上优于或至少可与当前最优方法相媲美，充分验证了生成式方法在动作分割任务中的有效性。

摘要

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

摘要

用 AI 构建 AI

HyperAI Newsletters

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

摘要

用 AI 构建 AI

HyperAI Newsletters

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

扩散动作分割

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

扩散动作分割

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

扩散动作分割

Daochang Liu Qiyue Li AnhDung Dinh Tingting Jiang Mubarak Shah Chang Xu

摘要

用 AI 构建 AI

HyperAI Newsletters