HyperAIHyperAI
منذ 2 أشهر

سapiens: أساس نماذج الرؤية البشرية

Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
سapiens: أساس نماذج الرؤية البشرية
الملخص

نقدم سايبينز (Sapiens)، وهي عائلة من النماذج المصممة لأربع مهام أساسية مرتبطة بالإنسان في مجال الرؤية - تقدير الوضع二维 (2D)、分割身体部位 (body-part segmentation)、深度估计 (depth estimation) 和表面法线预测 (surface normal prediction)。我们的模型原生支持1K高分辨率推理,并且通过简单微调在超过3亿张野生环境中的人类图像上预训练的模型,可以非常容易地适应各个任务。我们观察到,在相同的计算预算下,使用精选的人类图像数据集进行自我监督预训练,可以显著提高一系列人类中心任务的性能。生成的模型对野生环境中的数据表现出显著的泛化能力,即使标记数据稀缺或完全合成也是如此。我们简单的模型设计还带来了可扩展性——随着我们将参数数量从0.3亿增加到20亿,跨任务的模型性能得到了提升。萨宾斯在各种人类中心基准测试中始终超越现有的基线模型。我们在Humans-5K(姿态)上的表现比之前的最先进水平提高了7.6 mAP,在Humans-2K(部分分割)上提高了17.1 mIoU,在Hi4D(深度)上相对RMSE提高了22.4%,在THuman2(法线)上相对角度误差降低了53.5%。修正后的翻译:نقدم "سايبينز" (Sapiens)، وهي عائلة من النماذج المصممة لأربع مهام أساسية مرتبطة بالإنسان في مجال الرؤية - تقدير الوضع ثنائية الأبعاد (2D pose estimation)، وتقسيم أجزاء الجسم (body-part segmentation)، وتقدير العمق (depth estimation)، وتوقع المتجهات الطبيعية للسطح (surface normal prediction). تدعم نماذجنا بشكل أصيل الاستدلال بجودة دقة عالية تبلغ 1 كيلو بكسل، ويمكن تكييفها بسهولة لمهام فردية عن طريق تعديل النماذج التي تم تدريبها مسبقًا على أكثر من 300 مليون صورة إنسانية في البيئة الحقيقية. لقد لاحظنا أن، مع نفس الميزانية الحسابية، يعزز التدريب الذاتي المسبق على مجموعة بيانات مختارة من الصور الإنسانية الأداء بشكل كبير لمجموعة متنوعة من المهام المرتبطة بالإنسان. تظهر النماذج الناتجة قابلية تعميم ملحوظة على البيانات في البيئة الحقيقية، حتى عندما تكون البيانات المصنفة نادرة أو بالكامل صناعية. كما أن تصميم نموذجنا البسيط يوفر قابلية للتوسع - يتحسن أداء النموذج عبر المهام当我们增加参数数量时,从0.3亿到20亿。萨宾斯在各种人类中心基准测试中始终超越现有的基线模型。我们在Humans-5K(姿态)上的表现比之前的最先进水平提高了7.6 mAP,在Humans-2K(部分分割)上提高了17.1 mIoU,在Hi4D(深度)上相对RMSE提高了22.4%,在THuman2(法线)上相对角度误差降低了53.5%。最终版本:نقدم "سايبينز" (Sapiens)، وهي عائلة من النماذج المصممة لأربع مهام أساسية مرتبطة بالإنسان في مجال الرؤية - تقدير الوضع ثنائية الأبعاد (2D pose estimation)، وتقسيم أجزاء الجسم (body-part segmentation)، وتقدير العمق (depth estimation)، وتوقع المتجهات الطبيعية للسطح (surface normal prediction). تدعم نماذجنا بشكل أصيل الاستدلال بجودة دقة عالية تبلغ 1 كيلو بكسل، ويمكن تكييفها بسهولة لمهام فردية عن طريق تعديل النماذج التي تم تدريبها مسبقًا على أكثر من 300 مليون صورة إنسانية في البيئة الحقيقية. لقد لاحظنا أن، مع نفس الميزانية الحسابية، يعزز التدريب الذاتي المسبق على مجموعة بيانات مختارة من الصور الإنسانية الأداء بشكل كبير لمجموعة متنوعة من المهام المرتبطة بالإنسان. تظهر النماذج الناتجة قابلية تعميم ملحوظة على البيانات في البيئة الحقيقية، حتى عندما تكون البيانات المصنفة نادرة أو بالكامل صناعية.تصميم نموذجنا البسيط أيضًا يوفر قابلية للتوسع - يتحسن أداء النموذج عبر المهام عند زيادة عدد المعالم من 0.3 مليار إلى 2 مليار. "سايبينز" تتخطى باستمرار الخطوط الأساسية الموجودة عبر مختلف المقاييس المرتبطة بالإنسان. حققنا تحسينات كبيرة على أفضل ما كان متاحًا سابقًا في "البشر-5K" (Humans-5K) بمقدار 7.6 نقطة مئوية في مؤشر الدقة المتوسطة للمطابقة المتعددة (mAP)، وفي "البشر-2K" (Humans-2K) بمقدار 17.1 نقطة مئوية في مؤشر تقاطع فوق الاتحاد المتعدد للمask (mIoU)، وفي "هي4دي" (Hi4D) بنسبة 22.4% في خطأ الجذر التربيعي المتوسط نسبةً إلى العمق الحقيقي (relative RMSE)، وفي "ثيومان 2" (THuman2) بنسبة 53.5% في خطأ الزاوية نسبةً إلى السطح الطبيعي الحقيقي (relative angular error).

سapiens: أساس نماذج الرؤية البشرية | أحدث الأوراق البحثية | HyperAI