HyperAI

我们研究的是监督式动作分割任务，其目标是预测视频中每一帧的动作标签。现有方法为了捕捉长时程的时序依赖关系，通常通过Transformer增强帧级特征，或利用学习到的动作特征来优化帧级预测。然而，这些方法计算开销较大，且忽略了帧特征与动作特征之间蕴含的互补信息——这些信息若能被有效利用，将有助于提升两类特征的质量并改进时序建模能力。为此，我们提出一种高效且新颖的帧-动作交叉注意力时序建模框架（Frame-Action Cross-attention Temporal modeling, FACT）。该框架并行地利用帧特征与动作特征进行时序建模，并通过这种并行结构实现特征间的迭代式双向信息传递，从而持续优化两类特征。FACT网络包含三个核心组件：（i）帧分支，通过卷积操作学习帧级特征；（ii）动作分支，借助Transformer建模动作级别的依赖关系，并引入动作标记（action tokens）；（iii）交叉注意力机制，实现两分支之间的信息交互与通信。此外，我们设计了一种新的匹配损失函数，确保每个动作标记能够唯一地编码一个动作片段，从而更准确地捕捉其语义信息。得益于该架构设计，FACT还可有效利用视频的文本转录内容辅助动作分割任务。我们在四个视频数据集（包括两个第一人称视角和两个第三人称视角）上对FACT进行了评估，涵盖有无文本转录的两种场景。实验结果表明，FACT在显著提升当前最先进方法的分割准确率的同时，其计算效率更高——相比现有的基于Transformer的方法，推理速度提升了约3倍，展现出卓越的性能与效率平衡。

基准	方法	指标
action-segmentation-on-breakfast-1	FACT (efficient hybrid of convolution and transformer model)	Acc: 76.2 Average F1: 74.7 Edit: 79.7 F1@10%: 81.4 F1@25%: 76.5 F1@50%: 66.2
action-segmentation-on-gtea-1	FACT	Acc: 84.5 Edit: 93.5 F1@10%: 96.1 F1@25%: 95.6 F1@50%: 87.5

事实：用于高效动作分割的帧-动作交叉注意力时序建模

{Ehsan Elhamifar Zijia Lu}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

事实：用于高效动作分割的帧-动作交叉注意力时序建模

{Ehsan Elhamifar Zijia Lu}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters