
摘要
尽管近年来时序动作分割(Temporal Action Segmentation, TAS)的性能取得了显著提升,但其往往伴随着高昂的计算成本,主要原因包括密集的输入数据、复杂的模型结构以及资源消耗较大的后处理需求。为在保持性能的同时提升效率,本文提出一种以“逐段分类”为核心的新视角。通过利用Transformer的强大建模能力,我们将每个视频片段表示为一个独立的实例令牌(instance token),并赋予其内在的实例分割能力。为实现高效的动作分割,我们提出了BaFormer——一种具备边界感知能力的Transformer网络。该模型采用实例查询(instance queries)完成实例分割,同时引入全局查询(global query)进行类别无关的边界预测,从而生成连续的片段提案。在推理阶段,BaFormer采用一种简单而高效的投票策略,基于实例分割结果对边界划分的片段进行分类。值得注意的是,作为一项单阶段方法,BaFormer显著降低了计算开销,其运行时间仅为当前最先进方法DiffAct的6%,同时在多个主流基准上实现了更优或相当的准确率。该项目代码已公开,地址为:https://github.com/peiyao-w/BaFormer。