
摘要
由于基准测试流程中存在的不一致性,导致已发表的年龄估计方法结果可靠性不足,这给不同方法之间的比较带来了挑战。以往研究声称,过去十年间通过专用方法实现了持续的性能提升;然而,我们的研究结果对这些说法提出了质疑。本文揭示了当前评估协议中两个看似简单却长期存在的问题,并提出了相应的解决方案。我们对当前最先进的面部年龄估计方法进行了全面的对比分析。令人意外的是,我们发现不同方法之间的性能差异微乎其微,远不及其他因素的影响,如面部对齐质量、面部覆盖范围、图像分辨率、模型架构以及预训练所用数据量等。基于这些发现,我们提出以FaRL作为骨干模型,并在所有公开数据集上验证了其有效性。相关源代码及确切的数据划分已公开发布于GitHub。