إلى اكتشاف عالي الأداء لنقاط المفاتيح البشرية

إن كشف نقاط المفتاح البشرية من صورة واحدة يُعد أمرًا صعبًا جدًا نظرًا لوجود عوامل مثل الازدحام (الإغلاق)، والضبابية، والتغير في الإضاءة، وتغير الحجم. في هذه الورقة، نتناول هذه المشكلة من ثلاث جوانب: من خلال تصميم هيكل شبكة فعّالة، واقتراح ثلاث استراتيجيات تدريب فعّالة، واستغلال أربع تقنيات ما بعد المعالجة مفيدة. أولاً، نلاحظ أن المعلومات السياقية تلعب دورًا مهمًا في استنتاج تكوين جسم الإنسان والنقاط غير المرئية. مستوحين من هذا الملاحظة، نقترح نموذجًا مُتسلسلًا للمزج السياقي (CCM)، الذي يُدمج بشكل فعّال بين المعلومات السياقية المكانية والقناة، ويُعدّلها تدريجيًا. ثانيًا، لتعظيم قدرة CCM على التمثيل، نطوّر استراتيجية استخراج الأشخاص غير المُعلّمين (Hard-negative Person Detection Mining) واستراتيجية التدريب المشترك باستخدام كميات كبيرة من البيانات غير المُعلّمة. وهذا يمكّن CCM من تعلّم ميزات تمييزية من مجموعة واسعة من الوضعيات المختلفة. ثالثًا، نقدّم عدة تقنيات لتحسين الدقة على مستوى الفراغات الفرعية (sub-pixel refinement) لمعالجة النتائج النهائية لتحديد نقاط المفتاح، بهدف تحسين دقة الكشف. أظهرت التجارب الواسعة على معيار كشف نقاط المفتاح في مجموعة MS COCO تفوق الطريقة المقترحة مقارنة بالأساليب الرائدة (SOTA) المتميزة. حقق النموذج الواحد أداءً مماثلًا للفائز في مسابقة كشف نقاط المفتاح في COCO 2018. أما النموذج المجمّع النهائي، فقد سجّل أداءً جديدًا على مستوى أفضل النتائج (SOTA) في هذا المعيار.