HyperAIHyperAI
منذ 2 أشهر

ConvFormer: تقليل المعلمات في نماذج Transformer لتقدير وضع الجسم البشري ثلاثي الأبعاد من خلال الاستفادة من انتباه متعدد الرؤوس ديناميكي انتقالي

Diaz-Arias, Alec ; Shin, Dmitriy
ConvFormer: تقليل المعلمات في نماذج Transformer لتقدير وضع الجسم البشري ثلاثي الأبعاد من خلال الاستفادة من انتباه متعدد الرؤوس ديناميكي انتقالي
الملخص

في الآونة الأخيرة، استبدلت البنى المعمارية الكاملة للمتحولات (fully-transformer architectures) البناء المعماري التقليدي للشبكات العصبية التلافيفية (convolutional architecture) في مهمة تقدير وضع الجسم البشري ثلاثي الأبعاد. في هذا البحث، نقترح ConvFormer، وهو نوع جديد من المتحولات التلافيفية التي تستفيد من آلية جديدة تسمى الانتباه الذاتي متعدد الرؤوس التلفيقي الديناميكي (dynamic multi-headed convolutional self-attention) لتقدير وضع الجسم البشري ثلاثي الأبعاد باستخدام كاميرا واحدة. قمنا بتصميم متحول تلفيقي فضائي وزماني لنمذجة علاقات المفاصل البشرية بشكل شامل داخل الإطارات الفردية وعالمياً عبر سلسلة الحركة. بالإضافة إلى ذلك، نقدم مفهوماً جديداً يُعرف بـ ملف تعريف المفاصل الزماني (temporal joints profile) لمتحولنا الزماني ConvFormer، والذي يدمج المعلومات الزمانية الكاملة على الفور لمحيط محلي من خصائص المفصل. لقد تم التحقق من صحة طرقتنا كمياً وكيفياً على ثلاثة مجموعات بيانات شائعة: Human3.6M، MPI-INF-3DHP، وHumanEva. أجرينا تجارب واسعة النطاق لتحديد مجموعة المعلمات الأولية المثلى. أظهرت هذه التجارب أننا حققنا تخفيضاً كبيراً في عدد المعلمات مقارنة بالطرقات السابقة للمتحولات مع الوصول إلى أفضل النتائج المعروفة حالياً (State-of-the-Art - SOTA) أو قريبة منها على جميع الثلاثة مجموعات بيانات. علاوة على ذلك، حققنا أفضل النتائج المعروفة حالياً لبروتوكول III على Human3.6M لكل من إدخالات الكشف عن GT وCPN. وأخيراً، حصلنا على أفضل النتائج المعروفة حالياً في جميع الثلاثة مقاييس لمجموعة البيانات MPI-INF-3DHP وفي جميع الثلاثة مواضيع لمجموعة البيانات HumanEva تحت بروتوكول II.

ConvFormer: تقليل المعلمات في نماذج Transformer لتقدير وضع الجسم البشري ثلاثي الأبعاد من خلال الاستفادة من انتباه متعدد الرؤوس ديناميكي انتقالي | أحدث الأوراق البحثية | HyperAI