HyperAIHyperAI

Command Palette

Search for a command to run...

MiVOLO: متعدد المدخلات ترانسفورمر لتقدير العمر والجنس

Kuprashevich Maksim ; Tolstykh Irina

الملخص

التعرف على العمر والجنس في البيئة الحقيقية هو مهمة معقدة للغاية: بالإضافة إلى تباين الظروف وتعقيدات الوضعية وجودة الصور المتغيرة، هناك حالات يكون فيها الوجه مغطى جزئيًا أو تمامًا. نقدم في هذا البحث طريقة مباشرة لتقدير العمر والجنس باستخدام أحدث نموذج من المتحولات البصرية (Vision Transformer)، وهو ما نسميه MiVOLO (Multi Input VOLO). يدمج نهجنا كلا المهمتين في نموذج موحد ذو مدخل ومخرج ثنائيين، مستفيدًا ليس فقط من المعلومات الوجهية ولكن أيضًا من بيانات صورة الشخص. هذا يحسن قدرة النموذج على التعميم ويجعله قادرًا على تقديم نتائج مرضية حتى عندما لا يكون الوجه مرئيًا في الصورة. لتقييم النموذج المقترح، أجرينا تجارب على أربع مقاييس شائعة وأحرزنا أفضل الأداء الحالي، مع إظهار قدرات المعالجة الفورية.بالإضافة إلى ذلك، قدمنا مقاييس جديدًا يستند إلى صور من مجموعة الصور المفتوحة (Open Images Dataset). تم إنشاء شروحات الحقيقة الأرضية لهذه المقاييس بدقة عالية بواسطة محكمين بشر، مما أدى إلى إجابات دقيقة للغاية نتيجة التجميع الذكي للأصوات. علاوة على ذلك، قارنّا أداء نموذجنا في التعرف على العمر بدقة البشر وأظهرنا أنه يتفوق بشكل كبير على البشر في معظم فئات العمر. أخيرًا، منحنا الوصول العام إلى نماذجنا وكود التحقق والاستدلال. كما قدمّا شروحات إضافية للمجموعات المستخدمة وقمنا بتقديم مقاييسنا الجديدة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp