تجميع رسم بياني هرمي قابِل للتمايز لتقدير وضعية الأشخاص المتعددين

يُعدّ تقدير وضعية الأشخاص متعددة الأشخاص تحديًا كبيرًا نظرًا لضرورة تحديد نقاط المفصلية للجسم لعدة أشخاص في آنٍ واحد. يمكن تقسيم الطرق السابقة إلى نوعين رئيسيين: الطرق العلوية-السفلية (top-down) والطرق السفلية-العلوية (bottom-up). حيث تقوم الطرق العلوية-السفلية بتحديد نقاط المفصلية بعد اكتشاف الأشخاص، بينما تقوم الطرق السفلية-العلوية بتحديد نقاط المفصلية مباشرة، ثم تجمّعها أو تجميعها لتمييز الأشخاص المختلفين، وهي عادةً أكثر كفاءة من الطرق العلوية-السفلية. ومع ذلك، في الطرق السفلية-العلوية الحالية، يتم حل مشكلة تجميع نقاط المفصلية بشكل مستقل عن عملية الكشف عن هذه النقاط، ما يجعلها غير قابلة للتدريب بشكل متكامل (end-to-end) وأداءها غير مثالي. في هذا البحث، نستعرض منظورًا جديدًا لعملية تجميع أجزاء الجسم، ونعيد صياغتها كمهمة تجميع رسومية (graph clustering). ونُقدّم طريقة مبتكرة قابلة للتفاضل تُسمى "تجميع الرسومات الهرمية" (Hierarchical Graph Grouping - HGG)، لتعلم عملية تجميع الرسوم في مهام تقدير الوضعية متعددة الأشخاص من نوع السفلية-العلوية. علاوةً على ذلك، يمكن دمج HGG بسهولة في الطرق السفلية-العلوية الشائعة. حيث تُعتبر مرشحات نقاط المفصلية البشرية عقدًا في الرسم البياني، وتتم عملية التجميع في نموذج شبكة عصبية متعددة الطبقات. ويمكن تدريب وحدات HGG بشكل متكامل مع شبكة كشف نقاط المفصلية، وتُمكّن من مراقبة عملية التجميع بطريقة هرمية. ولتحسين تمييز عملية التجميع، نُضيف مجموعة من المُميّزات للحواف (edge discriminators) ووحدات التمييز للعقد الكبيرة (macro-node discriminators). وقد أظهرت التجارب الواسعة على مجموعتي بيانات COCO وOCHuman تحسّن الأداء في طرق تقدير الوضعية السفلية-العلوية باستخدام الطريقة المقترحة.