HyperAIHyperAI

Command Palette

Search for a command to run...

通过序列到序列翻译实现统一的全监督与时间戳监督时序动作分割

Nadine Behrmann S. Alireza Golestaneh Zico Kolter Juergen Gall Mehdi Noroozi

摘要

本文提出了一种统一的视频动作分割框架,该框架基于序列到序列(seq2seq)翻译,在完全监督与时间戳监督两种设置下均实现端到端建模。与当前主流的帧级预测方法不同,本文将动作分割建模为一个seq2seq翻译任务,即从视频帧序列映射到动作片段序列。为应对输入序列长、输出序列短以及训练视频数量有限等挑战,本文在标准Transformer seq2seq模型的基础上,提出了一系列结构改进与辅助损失函数。具体而言,通过引入基于帧级别的辅助监督信号来增强编码器的表达能力,并设计了一个独立的对齐解码器以实现对动作持续时间的隐式预测。此外,本文进一步提出一种约束型k-medoids算法,将框架拓展至时间戳监督设置,用于生成伪分割标签。实验结果表明,所提出的框架在完全监督与时间戳监督两种设置下均表现稳定,且在多个基准数据集上达到或超越现有最先进水平。相关代码已公开,地址为:https://github.com/boschresearch/UVAST


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供