SkillFormer:统一多视角视频理解以评估熟练度
Edoardo Bianchi, Antonio Liotta
发布日期: 5/14/2025

摘要
评估人类在复杂活动中的技能水平是一个具有广泛应用前景的难题,涉及体育、康复和培训等领域。本文介绍了一种名为SkillFormer的参数高效架构,该架构能够从第一人称(egocentric)和第三人称(exocentric)视频中进行统一的多视角熟练度评估。基于TimeSformer主干网络,SkillFormer引入了一个CrossViewFusion模块,该模块通过多头交叉注意力、可学习门控和自适应校准来融合特定视角的特征。我们利用低秩适应(Low-Rank Adaptation)技术仅微调一小部分参数,从而显著降低了训练成本。实际上,在EgoExo4D数据集上的评估结果显示,SkillFormer在多视角设置下达到了最先进的精度,同时表现出卓越的计算效率,使用的参数数量比先前的基线模型减少了4.5倍,所需的训练轮次也减少了3.75倍。它在多个结构化任务中表现出色,证实了多视角集成对于细粒度技能评估的价值。