Command Palette
Search for a command to run...
智人:人类视觉模型的基础
智人:人类视觉模型的基础
Rawal Khirodkar Timur Bagautdinov Julieta Martinez Su Zhaoen Austin James Peter Selednik Stuart Anderson Shunsuke Saito
摘要
我们提出 Sapiens,这是一个面向四大核心人类中心视觉任务的模型系列:2D姿态估计、身体部位分割、深度估计和表面法向预测。我们的模型原生支持1K高分辨率推理,并可通过在超过3亿张自然场景中的人类图像上预训练的模型进行简单微调,轻松适配至具体任务。我们观察到,在相同计算预算下,基于精心筛选的人类图像数据集进行自监督预训练,能显著提升多种人类中心任务的性能。所得到的模型在真实场景数据上展现出卓越的泛化能力,即使在标注数据稀缺或完全为合成数据的情况下亦然。此外,我们设计的模型结构简单,具备良好的可扩展性——随着参数量从0.3亿增至20亿,各任务的性能均持续提升。Sapiens在多个主流人类中心视觉基准测试中 consistently 超越现有基线方法。在 Humans-5K(姿态估计)任务上,相比先前最先进方法,mAP 提升7.6;在 Humans-2K(部位分割)任务上,mIoU 提升17.1;在 Hi4D(深度估计)任务上,相对RMSE降低22.4%;在 THuman2(表面法向预测)任务上,相对角度误差降低53.5%。