HyperAIHyperAI
منذ 16 أيام

التعلم التعاوني متعدد الوسائط للتعرف الفعّال على الإجراءات القائمة على الهيكل العظمي

Jinfu Liu, Chen Chen, Mengyuan Liu
التعلم التعاوني متعدد الوسائط للتعرف الفعّال على الإجراءات القائمة على الهيكل العظمي
الملخص

لقد حظيت التعرف على الأفعال القائمة على الهيكل العظمي باهتمام كبير بفضل استخدام الهياكل العظمية المختصرة والمقاومة. ومع ذلك، فإن غياب المعلومات التفصيلية عن الجسم في الهياكل العظمية يحد من الأداء، في حين أن الطرق متعددة الوسائط الأخرى تتطلب موارد استنتاج كبيرة، وهي غير فعالة عند استخدام البيانات متعددة الوسائط أثناء مراحل التدريب والاستنتاج. لمعالجة هذه المشكلة وتمكين الاستفادة الكاملة من الخصائص المكملة بين الوسائط، نقترح إطارًا جديدًا للتعلم التعاوني متعدد الوسائط (MMCL)، باستخدام نماذج اللغة الكبيرة متعددة الوسائط (LLMs) كشبكات مساعدة لتمكين التعرف على الأفعال القائمة على الهيكل العظمي بكفاءة، حيث يُجري التعلم التعاوني متعدد الوسائط أثناء مرحلة التدريب، ويحافظ على الكفاءة من خلال الاعتماد فقط على الهياكل العظمية المختصرة أثناء الاستنتاج. يتكون إطارنا MMCL بشكل رئيسي من وحدتين. أولاً، وحدة توحيد الميزات (FAM) التي تستخرج ميزات RGB الغنية من إطارات الفيديو وتوحّد هذه الميزات مع الميزات العظمية الشاملة من خلال التعلم التناصي. ثانيًا، وحدة تحسين الميزات (FRM) التي تستخدم صور RGB مع معلومات زمنية وإرشادات نصية لإنتاج ميزات توجيهية تعتمد على القدرة العالية على التعميم في نماذج LLMs متعددة الوسائط. سيتم استخدام هذه الميزات النصية التوجيهية لتحسين نقاط التصنيف، وستعزز هذه النقاط المُعدّلة من مقاومة النموذج وقدرته على التعميم، بشكل مشابه لاستخدام العلامات الناعمة. أظهرت التجارب الواسعة على مجموعات بيانات NTU RGB+D وNTU RGB+D 120 وNorthwestern-UCLA تأكيدًا مستمرًا على فعالية إطارنا MMCL، الذي يتفوق على الطرق الحالية للتعرف على الأفعال القائمة على الهيكل العظمي. وفي الوقت نفسه، أظهرت التجارب على مجموعتي بيانات UTD-MHAD وSYSU-Action قدرة متميزة لنموذجنا MMCL على التعميم في التعرف على الأفعال بدون تدريب (zero-shot) والتكيف بين المجالات (domain-adaptive). يمكن الوصول إلى الكود الخاص بنا بشكل عام من خلال الرابط التالي: https://github.com/liujf69/MMCL-Action.

التعلم التعاوني متعدد الوسائط للتعرف الفعّال على الإجراءات القائمة على الهيكل العظمي | أحدث الأوراق البحثية | HyperAI