2 个月前
Poseidon:一种基于ViT的多帧姿态估计架构,具有自适应帧加权和多尺度特征融合
Pace, Cesare Davide ; De Nunzio, Alessandro Marco ; De Stefano, Claudio ; Fontanella, Francesco ; Molinara, Mario

摘要
人体姿态估计是计算机视觉中的一个重要任务,涉及在图像和视频中检测和定位人体关节。尽管单帧姿态估计已经取得了显著进展,但其通常无法捕捉时间动态,从而难以理解复杂的连续动作。为此,我们提出了一种名为Poseidon的新颖多帧姿态估计架构,该架构通过整合时间信息扩展了ViTPose模型,以提高准确性和鲁棒性,解决上述局限性。Poseidon引入了几个关键创新点:(1)自适应帧加权(Adaptive Frame Weighting, AFW)机制,该机制根据帧的相关性动态地赋予不同权重,确保模型专注于最具信息量的数据;(2)多尺度特征融合(Multi-Scale Feature Fusion, MSFF)模块,该模块从不同的骨干层聚合特征,以捕捉细粒度细节和高层次语义;(3)交叉注意力(Cross-Attention)模块,用于中央帧和上下文帧之间有效交换信息,增强模型的时间连贯性。所提出的架构在复杂视频场景中提高了性能,并且具有可扩展性和计算效率,适用于实际应用。我们的方法在PoseTrack21和PoseTrack18数据集上实现了最先进的性能,分别达到了88.3和87.8的mAP分数,优于现有方法。