إعادة التفكير في تقدير الوضع في الحشود: التغلب على عنق الزجاجة في معلومات الكشف والغموض

التفاعلات المتكررة بين الأفراد تمثل تحديًا أساسيًا لخوارزميات تقدير الوضع (الإطار). تستخدم الأنابيب الحالية إما كاشفًا للأشياء مع مقدر للوضع (نهج من الأعلى إلى الأسفل)، أو تقوم بتحديد جميع أجزاء الجسم أولاً ثم ربطها لتقدير وضع الأفراد (نهج من الأسفل إلى الأعلى). ومع ذلك، عند التفاعل الوثيق بين الأفراد، يصبح النهج من الأعلى إلى الأسفل غير محدد بشكل صحيح بسبب تداخل الأفراد، بينما غالبًا ما يُخطئ النهج من الأسفل إلى الأعلى في استنتاج الروابط مع أجزاء الجسم البعيدة. لذلك، نقترح أنبوبًا جديدًا يُسمى تقدير الوضع المشروط بالنهج من الأسفل إلى الأعلى (BUCTD) الذي يجمع بين قوى النهجين من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل. وبشكل خاص، نقترح استخدام نموذج من الأسفل إلى الأعلى ككاشف، والذي بالإضافة إلى الصندوق الحدودي المقدر، يقدم اقتراح وضع يتم تغذية شرطه لنموذج من الأعلى إلى الأسفل يستند على الانتباه. نوضح أداء وكفاءة نهجنا على مقاييس تقدير الوضع للحيوانات والإنسان. على مقاييس CrowdPose وOCHuman، نتفوق على النماذج السابقة التي تعتبر أفضل ما تم الوصول إليه بمقدار كبير. نحقق دقة 78.5 AP على CrowdPose و48.5 AP على OCHuman، مما يمثل تحسين بنسبة 8.6% و7.8% عن الأعمال السابقة، على التوالي. علاوة على ذلك، نظهر أن طريقة عملنا تحسن بشكل كبير أداء المقاييس المتعددة للحيوانات التي تتضمن أسماك وخنازير القرد. يمكن الحصول على الكود من https://github.com/amathislab/BUCTD