DECA: تقدير وضعية الجسم البشري بعمق باستخدام كبسولات الترميز التلقائي

تهدف تقدير الوضع البشري (HPE) إلى استرجاع الموضع ثلاثي الأبعاد للمفاصل البشرية من الصور أو الفيديوهات. نوضح أن طرق تقدير الوضع البشري ثلاثي الأبعاد الحالية تعاني من نقص في التكافؤ الزاوي، بمعنى أنها تميل إلى الفشل أو الأداء بشكل ضعيف عند التعامل مع زوايا رؤية لم يتم تدريبها عليها. غالبًا ما تعتمد طرق التعلم العميق على عمليات ثابتة حسب الحجم، أو الثبات حسب الترجمة، أو الثبات حسب الدوران، مثل عملية الاستخلاص القصوى (max-pooling). ومع ذلك، فإن استخدام مثل هذه الإجراءات لا يحسن بالضرورة التعميم الزاوي، بل يؤدي إلى طرق أكثر اعتمادًا على البيانات. لمعالجة هذه المشكلة، نقترح شبكة كبسول ذاتية الترميز جديدة مع خوارزمية توجيه كبسول بيز المتغير السريع، والتي أطلقنا عليها اسم DECA. من خلال نمذجة كل مفصل ككيان كبسولي ودمجه مع خوارزمية التوجيه، يمكن لنهجنا الحفاظ على البنية الهرمية والهندسية للمفاصل في فضاء الخصائص بشكل مستقل عن زاوية الرؤية. بتحقيق التكافؤ الزاوي، نخفض بشكل كبير اعتمادية الشبكة على البيانات أثناء مرحلة التدريب، مما يؤدي إلى قدرة أفضل على التعميم لزوايا الرؤية غير المعروفة. في التحقق التجريبي، نتفوق على الطرق الأخرى في صور العمق من زوايا الرؤية المعروفة وغير المعروفة، سواء كانت من الأعلى أو الأمام. وفي مجال RGB، توفر نفس الشبكة نتائجًا رائدة في مهمة تحويل الزاوية الصعبة أيضًا، وتضع إطارًا جديدًا لتقدير الوضع البشري من الأعلى (top-view HPE). يمكن العثور على الكود في https://github.com/mmlab-cv/DECA.