التقدير المباشر متعدد الرؤى متعدد الأشخاص للوضعية ثلاثية الأبعاد

نقدم نموذج التحويل متعدد الرؤى للوضع (MvP) لتقدير وضعية الأشخاص متعددة الأشخاص في الأبعاد الثلاثية من صور متعددة الزوايا. بدلًا من تقدير مواقع المفاصل الثلاثية باستخدام تمثيلات حجمية باهظة التكلفة أو إعادة بناء الوضعية ثلاثية الأبعاد للشخص الواحد من خلال اكتشاف الوضعيات الثنائية المتعددة كما في الطرق السابقة، يُقدّم MvP طريقة مباشرة وفعّالة لاسترجاع الوضعيات الثلاثية لعدة أشخاص، دون الاعتماد على مهام وسيطة. بشكل خاص، يُمثّل MvP مفاصل الهيكل العظمي كمُدخلات قابلة للتعلم (query embeddings)، ويسمح لها بالاستماع تدريجيًا وتحليل المعلومات من الرؤى المتعددة من الصور المدخلة مباشرةً لاسترجاع مواقع المفاصل ثلاثية الأبعاد الفعلية. ولتحسين دقة هذا النموذج البسيط، يقدّم MvP نموذجًا هرميًا لتمثيل موجز للمدخلات القابلة للتعلم لمفاصل الهيكل العظمي للأشخاص المتعددين، ويُطبّق أيضًا تقنية تكييف مدخلات حسب المدخل (input-dependent query adaptation). علاوة على ذلك، يصمم MvP آلية انتباه جديدة موجهة هندسيًا، تُسمى "الانتباه التصويري" (projective attention)، لدمج معلومات الرؤى المتقاطعة بدقة أكبر لكل مفصل. كما يُقدّم MvP عملية جديدة تُسمى RayConv لدمج هندسة الكاميرات المعتمدة على الرؤية في تمثيلات الميزات، بهدف تعزيز أداء الانتباه التصويري. نُظهر تجريبيًا أن نموذج MvP يتفوّق على أفضل الطرق الحالية على عدة مجموعات بيانات، مع كونه أكثر كفاءة بشكل ملحوظ. وبشكل لافت، حقق 92.3% من AP25 على مجموعة البيانات الصعبة Panoptic، متفوّقًا على أفضل طريقة سابقة [36] بنسبة 9.8%. ويتميز MvP بالعامة والقابلية للتوسع، حيث يمكن استخدامه أيضًا لاسترجاع الشكل الجسدي البشري المُمثل باستخدام نموذج SMPL، مما يجعله أداة مفيدة لنمذجة أشكال أجسام متعددة الأشخاص. يُمكن الوصول إلى الكود والنموذج عبر الرابط: https://github.com/sail-sg/mvp.