2 个月前
《智人:人类视觉模型的基础》
Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito

摘要
我们介绍了Sapiens,这是一系列针对四个基本的人类中心视觉任务的模型——2D姿态估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推理,并且通过简单微调在超过3亿张野生环境中的人类图像上预训练的模型,可以非常容易地适应各个任务。我们观察到,在相同的计算预算下,使用精心挑选的人类图像数据集进行自监督预训练,可以显著提升一系列人类中心任务的性能。生成的模型在野生环境数据中表现出卓越的泛化能力,即使标签数据稀缺或完全合成也是如此。我们简单的模型设计还带来了可扩展性——随着参数数量从0.3亿增加到20亿,各任务的模型性能得到了提升。Sapiens在各种人类中心基准测试中始终超越现有的基线模型。我们在Humans-5K(姿态)上的表现比之前的最先进方法提高了7.6 mAP,在Humans-2K(部位分割)上提高了17.1 mIoU,在Hi4D(深度)上相对RMSE提高了22.4%,在THuman2(法线)上相对角度误差降低了53.5%。