Command Palette
Search for a command to run...
无需循环的循环:基于深度平衡模型的稳定视频关键点检测
无需循环的循环:基于深度平衡模型的稳定视频关键点检测
Paul Micaelli Arash Vahdat Hongxu Yin Jan Kautz Pavlo Molchanov
摘要
级联计算(cascaded computation)——即通过多个阶段对预测结果进行反复精炼——一直是关键点检测模型发展过程中的核心思想。在本工作中,我们表明,近期提出的深度平衡模型(Deep Equilibrium Model, DEQ)可自然地适配此类计算范式。我们提出的Landmark DEQ(LDEQ)在具有挑战性的WFLW人脸关键点数据集上取得了当前最优性能,达到3.92的归一化均方误差(NME),同时参数量更少,且训练时的内存开销仅随循环模块数量呈O(1)增长。此外,我们进一步证明,DEQ特别适用于视频中的关键点检测任务。在该场景下,由于缺乏标注视频数据,通常仅使用静态图像进行训练,这可能导致推理阶段在视频序列中出现“闪烁”(flickering)现象:模型在连续帧之间快速振荡于多个合理解之间。为此,我们通过将DEQ重新表述为一种约束优化问题,在推理阶段模拟递归行为,即便训练阶段并未接触任何时序数据。这一“无递归的递归”(Recurrence without Recurrence, RwR)范式有效缓解了关键点闪烁问题。我们通过引入新的评估指标——归一化平均闪烁度(Normalized Mean Flicker, NMF),并构建了一个新的面部关键点视频数据集WFLW-V,专门用于刻画关键点检测中的不确定性。在由500个视频组成的WFLW-V困难子集上,采用RwR的LDEQ相较于此前性能最强的基于人工调参传统滤波器的模型,在NME和NMF指标上分别提升了10%和13%。