وصف وضعية الإنسان والانتباه المُركّز على الموضوع لتحسين النقل الصفرية في مهام التصنيف المتمحورة حول الإنسان

نقدّم نموذجًا جديدًا يعتمد على النماذج اللغوية الكبيرة (LLM) لإنشاء وصف سياقي لوضعيات الجسم البشري في الصور باستخدام فقط السمات المساعدة. يُسهّل هذا النهج إنشاء مجموعة بيانات MPII Pose Descriptions، التي تحتوي على تعليقات بلغة طبيعية لـ 17,367 صورة تضم أشخاصًا يمارسون 410 أنشطة مختلفة. نُظهر فعالية وصفات الوضعية لدينا في تمكين التصنيف المتمحور حول الإنسان دون تدريب مسبق (zero-shot) باستخدام نموذج CLIP. بالإضافة إلى ذلك، نقدّم إطار FocusCLIP، الذي يدمج انتباهًا مركّزًا على الموضوع (Subject-Focused Attention - SFA) داخل نموذج CLIP لتحسين التوافق بين النص والصورة. تم تدريب نماذجنا مسبقًا على مجموعة بيانات MPII Pose Descriptions، وتم تقييم أدائها بدون تدريب على خمسة مجموعات بيانات غير مرئية تغطي ثلاث مهام. وقد تفوق FocusCLIP على النموذج الأساسي CLIP، حيث حقق زيادة متوسطة في الدقة بلغت 8.61% (33.65% مقابل 25.04% للنموذج CLIP). وبشكل لافت، سجّلنا تحسينات قدرها 3.98% في التعرف على الأنشطة، و14.78% في تصنيف العمر، و7.06% في التعرف على المشاعر. تُبرز هذه النتائج الإمكانات الكبيرة لدمج وصفات الوضعية التفصيلية والتوجيه على مستوى الموضوع ضمن الأطر العامة للتدريب المسبق، مما يؤدي إلى أداء محسّن في المهام اللاحقة.