Command Palette
Search for a command to run...
سابيينس: الأساس لنماذج الرؤية البشرية
سابيينس: الأساس لنماذج الرؤية البشرية
Rawal Khirodkar Timur Bagautdinov Julieta Martinez Su Zhaoen Austin James Peter Selednik Stuart Anderson Shunsuke Saito
الملخص
نقدم نموذج "سبينس" (Sapiens)، وهو عائلة من النماذج المُصمَّمة لمعالجة أربع مهام بصرية جوهرية تتمحور حول الإنسان: تقدير الوضعية ثنائية الأبعاد، وتقسيم أجزاء الجسم، وتقدير العمق، وتنبؤ الاتجاهات السطحية. تدعم نماذجنا بشكل أصيل عملية استنتاج بدقة عالية تصل إلى 1000 بكسل، وتمكّن من التكيّف بسهولة فائقة مع المهام الفردية من خلال ببساطة تدريب النماذج المُدرَّبة مسبقًا على أكثر من 300 مليون صورة واقعية لأشخاص. لاحظنا أن، في ظل نفس الموارد الحسابية، يُحدث التدريب التلقائي (self-supervised) على مجموعة بيانات مُختارة بعناية من الصور البشرية تحسينًا كبيرًا في الأداء لطائفة واسعة من المهام المُركّزة حول الإنسان. وتميّز النماذج الناتجة بقدرتها الاستثنائية على التعميم على البيانات الواقعية، حتى في حال ندرة البيانات المُعلَّمة أو اعتمادها كليًا على الصور الاصطناعية. كما يُسهم التصميم البسيط للنموذج في تحقيق قابلية التوسع: حيث تتحسن أداء النماذج عبر المهام مع زيادة عدد المُعامِلات من 0.3 إلى 2 مليار. يتفوّق "سبينس" باستمرار على النماذج الحالية في مختلف المعايير المُخصَّصة للمسائل المُركّزة حول الإنسان. ونحقّق تحسينات كبيرة مقارنةً بالحالة المُتطوّرة السابقة في معيار Humans-5K (للموضعية) بـ 7.6 نقطة متوسط دقة (mAP)، وفي Humans-2K (لتقسيم الأجزاء) بـ 17.1 نقطة متوسط دقة مُقسّمة (mIoU)، وفي Hi4D (للمدى) بـ 22.4% من خطأ الجذر التربيعي المتوسط النسبي (relative RMSE)، وفي THuman2 (للمُتجهات السطحية) بـ 53.5% من الخطأ الزاوي النسبي.