11 天前
通过序列到序列翻译实现统一的全监督与时间戳监督时序动作分割
Nadine Behrmann, S. Alireza Golestaneh, Zico Kolter, Juergen Gall, Mehdi Noroozi

摘要
本文提出了一种统一的视频动作分割框架,该框架基于序列到序列(seq2seq)翻译,在完全监督与时间戳监督两种设置下均实现端到端建模。与当前主流的帧级预测方法不同,本文将动作分割建模为一个seq2seq翻译任务,即从视频帧序列映射到动作片段序列。为应对输入序列长、输出序列短以及训练视频数量有限等挑战,本文在标准Transformer seq2seq模型的基础上,提出了一系列结构改进与辅助损失函数。具体而言,通过引入基于帧级别的辅助监督信号来增强编码器的表达能力,并设计了一个独立的对齐解码器以实现对动作持续时间的隐式预测。此外,本文进一步提出一种约束型k-medoids算法,将框架拓展至时间戳监督设置,用于生成伪分割标签。实验结果表明,所提出的框架在完全监督与时间戳监督两种设置下均表现稳定,且在多个基准数据集上达到或超越现有最先进水平。相关代码已公开,地址为:https://github.com/boschresearch/UVAST。