6 个月前

计算机视觉

Nadine Behrmann S. Alireza Golestaneh Zico Kolter Juergen Gall Mehdi Noroozi

摘要

本文提出了一种统一的视频动作分割框架，该框架基于序列到序列（seq2seq）翻译，在完全监督与时间戳监督两种设置下均实现端到端建模。与当前主流的帧级预测方法不同，本文将动作分割建模为一个seq2seq翻译任务，即从视频帧序列映射到动作片段序列。为应对输入序列长、输出序列短以及训练视频数量有限等挑战，本文在标准Transformer seq2seq模型的基础上，提出了一系列结构改进与辅助损失函数。具体而言，通过引入基于帧级别的辅助监督信号来增强编码器的表达能力，并设计了一个独立的对齐解码器以实现对动作持续时间的隐式预测。此外，本文进一步提出一种约束型k-medoids算法，将框架拓展至时间戳监督设置，用于生成伪分割标签。实验结果表明，所提出的框架在完全监督与时间戳监督两种设置下均表现稳定，且在多个基准数据集上达到或超越现有最先进水平。相关代码已公开，地址为：https://github.com/boschresearch/UVAST。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Nadine Behrmann S. Alireza Golestaneh Zico Kolter Juergen Gall Mehdi Noroozi

摘要

本文提出了一种统一的视频动作分割框架，该框架基于序列到序列（seq2seq）翻译，在完全监督与时间戳监督两种设置下均实现端到端建模。与当前主流的帧级预测方法不同，本文将动作分割建模为一个seq2seq翻译任务，即从视频帧序列映射到动作片段序列。为应对输入序列长、输出序列短以及训练视频数量有限等挑战，本文在标准Transformer seq2seq模型的基础上，提出了一系列结构改进与辅助损失函数。具体而言，通过引入基于帧级别的辅助监督信号来增强编码器的表达能力，并设计了一个独立的对齐解码器以实现对动作持续时间的隐式预测。此外，本文进一步提出一种约束型k-medoids算法，将框架拓展至时间戳监督设置，用于生成伪分割标签。实验结果表明，所提出的框架在完全监督与时间戳监督两种设置下均表现稳定，且在多个基准数据集上达到或超越现有最先进水平。相关代码已公开，地址为：https://github.com/boschresearch/UVAST。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供