
摘要
时间卷积一直是动作分割领域的主流范式,通过增加卷积层来扩展长期感受野。然而,深层网络会导致对帧级识别至关重要的局部信息丢失。为解决上述问题,本文提出一种新颖的编码器-解码器结构,称为交叉增强Transformer(Cross-Enhancement Transformer)。该方法通过交互式自注意力机制,有效学习时间结构表征。具体而言,将编码器中每一层的卷积特征图与解码器通过自注意力机制生成的一组特征进行拼接,从而在一系列帧级动作中同时融合局部与全局信息。此外,本文还提出一种新型损失函数,用于增强训练过程,该函数对过度分割错误施加惩罚。实验结果表明,所提出的框架在三个具有挑战性的数据集——50Salads、Georgia Tech 智能眼镜活动数据集以及Breakfast数据集上均达到了当前最优性能。