محول التجميع والتكبير الهرمي الزمني المُحسَّن لتقدير وضعية الإنسان ثلاثي الأبعاد

يستلزم تقدير دقيق لوضع الإنسان ثلاثي الأبعاد في تسلسلات الفيديو دقة عالية وهيكل معماري مُنظّم. وبفضل نجاح نماذج المحولات (Transformers)، نقدّم نموذج المحول المُحسّن للضغط والتكبير الهرمي الزمني (RTPCA). يستفيد RTPCA من البُعد الزمني من خلال توسيع نمذجة الزمن داخل الكتلة باستخدام هيكل الضغط والتكبير الهرمي الزمني (TPCA)، ويُحسّن التفاعل بين الكتل من خلال وحدة التحسين عبر الطبقات (XLR). وبشكل خاص، تُستخدم كتلة TPCA التي تعتمد نموذج الهرم الزمني لتعزيز قدرات تمثيل المفاتيح (keys) والقيم (values)، واستخلاص سمات فضائية سلسة من التسلسلات الحركية. ونُدمج هذه الكتل TPCA مع وحدة XLR التي تُعزز التمثيل السياقي الغني من خلال التفاعل المستمر بين الاستفسارات (queries) والمفاتيح (keys) والقيم (values). ويعكس هذا الاستراتيجية المعلومات المبكرة مع التدفق الحالي، مما يعالج العيوب الشائعة في التفاصيل والاستقرار التي تظهر في الطرق الأخرى المستندة إلى المحولات. ونُظهر فعالية RTPCA من خلال تحقيق نتائج رائدة في مجالات Human3.6M وHumanEva-I وMPI-INF-3DHP، مع تكلفة حوسبة ضئيلة جدًا. يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/hbing-l/RTPCA.