HyperAIHyperAI
منذ 2 أشهر

MiVOLO: متعدد المدخلات ترانسفورمر لتقدير العمر والجنس

Kuprashevich, Maksim ; Tolstykh, Irina
MiVOLO: متعدد المدخلات ترانسفورمر لتقدير العمر والجنس
الملخص

التعرف على العمر والجنس في البيئة الحقيقية هو مهمة معقدة للغاية: بالإضافة إلى تباين الظروف وتعقيدات الوضعية وجودة الصور المتغيرة، هناك حالات يكون فيها الوجه مغطى جزئيًا أو تمامًا. نقدم في هذا البحث طريقة مباشرة لتقدير العمر والجنس باستخدام أحدث نموذج من المتحولات البصرية (Vision Transformer)، وهو ما نسميه MiVOLO (Multi Input VOLO). يدمج نهجنا كلا المهمتين في نموذج موحد ذو مدخل ومخرج ثنائيين، مستفيدًا ليس فقط من المعلومات الوجهية ولكن أيضًا من بيانات صورة الشخص. هذا يحسن قدرة النموذج على التعميم ويجعله قادرًا على تقديم نتائج مرضية حتى عندما لا يكون الوجه مرئيًا في الصورة. لتقييم النموذج المقترح، أجرينا تجارب على أربع مقاييس شائعة وأحرزنا أفضل الأداء الحالي، مع إظهار قدرات المعالجة الفورية.بالإضافة إلى ذلك، قدمنا مقاييس جديدًا يستند إلى صور من مجموعة الصور المفتوحة (Open Images Dataset). تم إنشاء شروحات الحقيقة الأرضية لهذه المقاييس بدقة عالية بواسطة محكمين بشر، مما أدى إلى إجابات دقيقة للغاية نتيجة التجميع الذكي للأصوات. علاوة على ذلك، قارنّا أداء نموذجنا في التعرف على العمر بدقة البشر وأظهرنا أنه يتفوق بشكل كبير على البشر في معظم فئات العمر. أخيرًا، منحنا الوصول العام إلى نماذجنا وكود التحقق والاستدلال. كما قدمّا شروحات إضافية للمجموعات المستخدمة وقمنا بتقديم مقاييسنا الجديدة.