فهم البشر في المشاهد المزدحمة: التعلم الخصامي العميقي المتداخل ومعيار جديد لتحليل متعدد الأشخاص

رغم التقدم الملحوظ في المهام الإدراكية مثل الكشف، والتقسيم الفردي، وتحليل الإنسان، لا تزال الحواسيب تؤدي بشكل غير مرضٍ في فهم الإنسان بصريًا في المشاهد المزدحمة، مثل تحليل سلوك المجموعات، وإعادة تحديد الشخص، والقيادة الذاتية وغيرها. لتحقيق هذا الهدف، يجب على النماذج أن تدرك المعلومات الدلالية والاختلافات بين الحالات في صورة متعددة الأشخاص بشكل شامل، وهو ما تم تعريفه مؤخرًا كمهمة تقسيم متعدد الأشخاص (Multi-Human Parsing). في هذه الورقة البحثية، نقدم قاعدة بيانات جديدة ذات نطاق كبير "تقسيم متعدد الأشخاص (MHP)" لتطوير وتقييم الخوارزميات، ونتقدم بمستوى التقنيات الحديثة في فهم الإنسان في المشاهد المزدحمة. تحتوي MHP على 25,403 صورة مُعلَّمة بدقة مع 58 تصنيفًا دلاليًا دقيقًا، تتضمن صورًا لـ 2-26 شخصًا لكل صورة ومصوَّرة في مشاهد حقيقية من زوايا مختلفة وأوضاع وحالات انسداد وتفاعلات وخلفيات متنوعة.كما نقترح نموذج شبكة عميقة جديدة ومبتكرة يُعرف بـ "الشبكة المعادية المتداخلة (Nested Adversarial Network - NAN)" لتقسيم متعدد الأشخاص. يتكون NAN من ثلاث شبكات جينيراتيف أدايساريوس (Generative Adversarial Network - GAN) فرعية تعمل على التنبؤ بالبروز الدلالي (semantic saliency prediction)، والتقسيم غير المرتبط بالحالات (instance-agnostic parsing)، والتجميع المرتبط بالحالات (instance-aware clustering) على التوالي. تشكل هذه الشبكات الفرعية بنية متداخلة وقد تم تصميمها بعناية للتعلم بطريقة متكاملة من البداية إلى النهاية. يتفوق NAN باستمرار على الحلول الرائدة الحالية في قاعدة بياناتنا MHP وفي عدة قواعد بيانات أخرى، ويُعتبر نقطة انطلاق قوية لتحفيز البحث المستقبلي حول تقسيم متعدد الأشخاص.