التعلم المتعدد المقياس للبُقَع التسلسلية للتحويلات الرسومية ذات البقايا لتنبؤ الحركة البشرية

تم اقتراح طريقة جديدة لتنبؤ حركة الإنسان من خلال تعلّم الاعتماديات الزمنية والمكانية. في الآونة الأخيرة، تم تطوير الرسوم البيانية متعددة المقياس لتمثيل جسم الإنسان على مستويات تجريدية أعلى، مما أدى إلى تحسين استقرار تنبؤات الحركة. ومع ذلك، تعتمد الطرق الحالية على تحديد مستويات المقياس مسبقًا، وتجمع بين المفاصل القريبة مكانيًا لتكوين مستويات أ粗ة بناءً على معرفة مسبقة عن البنية البشرية، رغم أن أنماط الحركة في التسلسلات المختلفة تختلف، ولا تلتزم بالكامل برسوم بيانية ثابتة تربط المفاصل مكانيًا. كما أن أحد المشكلات المرتبطة بطرق الت convolution على الرسوم البيانية هو "انهيار النمط" (mode collapse)، حيث تتجه التنبؤات إلى تجميع الوضعيات حول وضعية متوسطة دون حركة مميزة، خاصة في التنبؤات طويلة المدى. لمعالجة هذه المشكلات، نقترح شبكة ResChunk من النمط المتكامل (end-to-end)، التي تستكشف المكونات الجسدية المرتبطة ديناميكيًا بناءً على العلاقات الزوجية بين جميع المفاصل في كل تسلسل فردي. تُدرّس ResChunk لتعلم الفروق (البُقايا) بين قطع التسلسل المستهدفة بطريقة ذاتية التنبؤ (autoregressive) لتعزيز الاتصال الزمني بين القطع المتتالية. وبالتالي، تُعد ResChunk شبكة تنبؤ من تسلسل إلى تسلسل، تأخذ بعين الاعتبار السمات المكانية الزمنية الديناميكية للتسلسلات على مستويات متعددة. أظهرت تجاربنا على مجموعتي بيانات معيار صعبتين، وهما CMU Mocap وHuman3.6M، أن الطريقة المقترحة قادرة على تمثيل معلومات التسلسل بكفاءة لتنبؤ الحركة، وتتفوق على الطرق الأخرى، مما يُسجّل حالة جديدة من التميز (state-of-the-art). يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/MohsenZand/ResChunk.