
摘要
现有的基于视频的人体姿态估计方法广泛地在每一帧上应用大型网络来定位身体关节,这导致了较高的计算成本,并且难以满足实际应用中的低延迟要求。为了解决这一问题,我们提出了一种新颖的动态核蒸馏(Dynamic Kernel Distillation, DKD)模型,以促进小型网络在视频中进行人体姿态估计,从而显著提高效率。具体而言,DKD引入了一个轻量级的蒸馏器,通过利用前一帧的时间线索,在一次前向传递中在线蒸馏姿态核。随后,DKD将身体关节定位简化为姿态核与当前帧之间的匹配过程,该过程可以通过简单的卷积高效计算。这样,DKD能够快速将姿态知识从一帧传递到另一帧,为后续帧的身体关节定位提供紧凑的指导,从而使得小型网络能够在基于视频的姿态估计中得以应用。为了促进训练过程,DKD采用了一种时间对抗训练策略,引入了一个时间判别器来帮助生成长时间范围内的时间连贯姿态核和姿态估计结果。在Penn Action和Sub-JHMDB基准上的实验表明,DKD具有出色的效率优势,特别是在浮点运算次数(FLOPs)减少10倍和速度提升2倍方面超过了之前的最佳模型,并且其精度达到了现有技术水平的最先进水平。