KTPFormer: محول مُحسَّن بالمعرفة السابقة عن الحركة ومسار الجسم البشري ثلاثي الأبعاد

يقدم هذا البحث نموذجًا جديدًا يُعرف بـ "متحول معزز بالمعلومات الأولية عن الحركة والمسار" (KTPFormer)، والذي يتغلب على الضعف الموجود في الأساليب القائمة على المتحولات لتقدير وضع الإنسان ثلاثي الأبعاد، حيث يتم استنتاج متجهات Q، K، V في آليات الانتباه الذاتي الخاصة بهم بناءً على تعيين خطي بسيط. نقترح وحدتين للانتباه الأولي، وهما "الانتباه الأولي للحركة" (KPA) و"الانتباه الأولي للمسار" (TPA)، للاستفادة من الهيكل التشريحي المعروف للجسم البشري ومعلومات مسار الحركة، مما يساعد في تعلم التبعيات والخصائص العالمية بشكل فعال في الانتباه الذاتي متعدد الرؤوس. تقوم وحدة KPA بنمذجة العلاقات الحركية في الجسم البشري من خلال بناء طوبولوجيا حركية، بينما تقوم وحدة TPA ببناء طوبولوجيا المسار لتعلم معلومات مسار حركة المفاصل عبر الإطارات. بتوليد متجهات Q، K، V تحتوي على المعلومات الأولية، تمكن الوحدتان KTPFormer من نمذجة الترابطات المكانية والزمانية في الوقت نفسه. أظهرت التجارب الشاملة على ثلاثة مقاييس (Human3.6M، MPI-INF-3DHP وHumanEva) أن KTPFormer حقق أداءً أفضل مقارنة بالأساليب الأكثر تقدمًا. وأكثر أهمية من ذلك، فإن وحدتي KPA وTPA لدينا تصاميم خفيفة الوزن يمكن دمجها وإلغاؤها بسهولة ويمكن إدماجها في شبكات مختلفة قائمة على المتحولات (مثل تلك القائمة على الانتشار) لتحسين الأداء مع زيادة ضئيلة جدًا في العبء الحسابي. يمكن الحصول على الكود من الرابط التالي: https://github.com/JihuaPeng/KTPFormer.