摘要

我们提出 Sapiens，这是一个面向四大核心人类中心视觉任务的模型系列：2D姿态估计、身体部位分割、深度估计和表面法向预测。我们的模型原生支持1K高分辨率推理，并可通过在超过3亿张自然场景中的人类图像上预训练的模型进行简单微调，轻松适配至具体任务。我们观察到，在相同计算预算下，基于精心筛选的人类图像数据集进行自监督预训练，能显著提升多种人类中心任务的性能。所得到的模型在真实场景数据上展现出卓越的泛化能力，即使在标注数据稀缺或完全为合成数据的情况下亦然。此外，我们设计的模型结构简单，具备良好的可扩展性——随着参数量从0.3亿增至20亿，各任务的性能均持续提升。Sapiens在多个主流人类中心视觉基准测试中 consistently 超越现有基线方法。在 Humans-5K（姿态估计）任务上，相比先前最先进方法，mAP 提升7.6；在 Humans-2K（部位分割）任务上，mIoU 提升17.1；在 Hi4D（深度估计）任务上，相对RMSE降低22.4%；在 THuman2（表面法向预测）任务上，相对角度误差降低53.5%。

源 PDF 查看代码