
摘要
近年来,人脸关键点检测研究取得了显著进展。然而,以往的多数工作较少系统性地探讨适用于实际应用场景的模型设计,往往仅聚焦于解决若干特定问题,而忽视了其他关键因素。为弥补这一空白,本文致力于探索一种兼具高精度、强鲁棒性、高效率、良好泛化能力以及端到端可训练性的实用化模型。为此,我们首先提出一个基础模型,其检测头采用单个Transformer解码器结构。为进一步提升模型精度,我们进一步设计了两个轻量级模块:动态查询初始化(Dynamic Query Initialization, DQInit)与查询感知记忆机制(Query-aware Memory, QAMem)。其中,DQInit通过从输入特征中动态初始化解码器的查询(queries),使模型在仅使用单层解码器的情况下即可达到与多层解码器相当的精度水平。QAMem则通过为每个查询分配独立的记忆值,而非共享全局记忆,显著增强了查询在低分辨率特征图上的判别能力。得益于QAMem的设计,模型不再依赖高分辨率特征图,仍能保持优异的检测精度。在三个主流基准数据集(WFLW、300W 和 COFW)上的大量实验与深入分析表明,所提出的模型在性能与实用性方面均表现出显著优势。尤为突出的是,该模型在WFLW数据集上取得了新的SOTA(State-of-the-Art)性能,同时在300W和COFW数据集上也获得了具有竞争力的结果,且推理速度稳定保持在50帧/秒以上,充分体现了其在实际部署中的高效性与可行性。