9 天前

用于高效视频预测的精确网格关键点学习

Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, Pheng-Ann Heng
用于高效视频预测的精确网格关键点学习
摘要

视频预测方法在训练与部署过程中通常消耗大量计算资源。其中,基于关键点的方法通过将密集图像预测简化为轻量级关键点预测,在效率方面展现出显著改进潜力。然而,现有方法通常仅将关键点位置建模为连续坐标,导致视频中语义无关的微小偏移容易引入噪声,破坏学习过程的稳定性,进而造成关键点建模不准确。本文提出一种新型的网格关键点学习框架,旨在实现长期高效视频预测中鲁棒且可解释的中间关键点表征。本文主要包含两项技术贡献:第一,我们在构建的网格空间中跳跃式搜索候选位置以检测关键点,并设计了一种凝聚损失(condensation loss),以促使模型学习具有强表征能力的有意义关键点;第二,我们引入二维二值图来表示检测到的网格关键点,并通过在离散网格空间中随机选择元素的方式传播关键点位置,从而在长时程预测中有效保持关键点的空间结构,提升未来帧生成质量。大量实验验证表明,本方法在性能上超越当前最先进的随机性视频预测方法,同时节省超过98%的计算资源。此外,我们在机器人辅助手术数据集上验证了方法的有效性,取得了令人鼓舞的结果。相关代码已开源,地址为:https://github.com/xjgaocs/Grid-Keypoint-Learning。