HyperAIHyperAI

Command Palette

Search for a command to run...

وصف وضعية الإنسان والانتباه المُركّز على الموضوع لتحسين النقل الصفرية في مهام التصنيف المتمحورة حول الإنسان

Muhammad Saif Ullah Khan Muhammad Ferjad Naeem Federico Tombari Luc Van Gool Didier Stricker Muhammad Zeshan Afzal

الملخص

نقدّم نموذجًا جديدًا يعتمد على النماذج اللغوية الكبيرة (LLM) لإنشاء وصف سياقي لوضعيات الجسم البشري في الصور باستخدام فقط السمات المساعدة. يُسهّل هذا النهج إنشاء مجموعة بيانات MPII Pose Descriptions، التي تحتوي على تعليقات بلغة طبيعية لـ 17,367 صورة تضم أشخاصًا يمارسون 410 أنشطة مختلفة. نُظهر فعالية وصفات الوضعية لدينا في تمكين التصنيف المتمحور حول الإنسان دون تدريب مسبق (zero-shot) باستخدام نموذج CLIP. بالإضافة إلى ذلك، نقدّم إطار FocusCLIP، الذي يدمج انتباهًا مركّزًا على الموضوع (Subject-Focused Attention - SFA) داخل نموذج CLIP لتحسين التوافق بين النص والصورة. تم تدريب نماذجنا مسبقًا على مجموعة بيانات MPII Pose Descriptions، وتم تقييم أدائها بدون تدريب على خمسة مجموعات بيانات غير مرئية تغطي ثلاث مهام. وقد تفوق FocusCLIP على النموذج الأساسي CLIP، حيث حقق زيادة متوسطة في الدقة بلغت 8.61% (33.65% مقابل 25.04% للنموذج CLIP). وبشكل لافت، سجّلنا تحسينات قدرها 3.98% في التعرف على الأنشطة، و14.78% في تصنيف العمر، و7.06% في التعرف على المشاعر. تُبرز هذه النتائج الإمكانات الكبيرة لدمج وصفات الوضعية التفصيلية والتوجيه على مستوى الموضوع ضمن الأطر العامة للتدريب المسبق، مما يؤدي إلى أداء محسّن في المهام اللاحقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
وصف وضعية الإنسان والانتباه المُركّز على الموضوع لتحسين النقل الصفرية في مهام التصنيف المتمحورة حول الإنسان | مستندات | HyperAI