HyperAIHyperAI
منذ 8 أيام

MMTM: وحدة نقل متعددة الوسائط لدمج الشبكات العصبية التلافيفية

Hamid Reza Vaezi Joze, Amirreza Shaban, Michael L. Iuzzolino, Kazuhito Koishida
MMTM: وحدة نقل متعددة الوسائط لدمج الشبكات العصبية التلافيفية
الملخص

في الدمج المتأخر (Late Fusion)، يتم معالجة كل وسيلة (موداليتي) بشكل منفصل عبر تدفق من الشبكات العصبية التلافيفية (CNN) أحادية الوسيلة، ثم تُدمج النتائج (الدرجات) الناتجة عن كل وسيلة في النهاية. وبسبب بساطته، يظل الدمج المتأخر هو النهج السائد في العديد من التطبيقات متعددة الوسائط المتطورة حديثًا. في هذه الورقة، نقدم وحدة شبكة عصبية بسيطة لاستغلال المعرفة من وسائط متعددة داخل الشبكات العصبية التلافيفية. وتُسمى الوحدة المقترحة "وحدة نقل متعددة الوسائط" (Multimodal Transfer Module - MMTM)، ويمكن إضافتها على مستويات مختلفة من الهرم المميزاتي، مما يتيح دمج الوسائط ببطء. باستخدام عمليات التقلص والتمكين (Squeeze and Excitation)، تُستخدم MMTM المعرفة من وسائط متعددة لإعادة ضبط الخصائص القنوية (channel-wise) في كل تدفق CNN. وعلى عكس الطرق الأخرى للدمج المتوسط، يمكن للوحدة المقترحة أن تُستخدم في دمج ميزات الوسائط داخل طبقات التلافيف ذات أبعاد مكانيّة مختلفة. كما يتمتع هذا الأسلوب بميزة إضافية تتمثل في إمكانية إضافته بين الفروع الأحادية الوسيلة مع الحد الأدنى من التعديلات على هياكل الشبكات، ما يسمح بتوليد القيم الأولية (pretrained weights) لكل فرع باستخدام أوزان مُدرّبة مسبقًا. تُظهر النتائج التجريبية أن إطار العمل المقترح يُحسّن دقة التعرف في شبكات متعددة الوسائط الشهيرة. كما نُظهر أداءً يُصنف ضمن الأفضل أو يُنافس في أربع مجموعات بيانات تغطي مجالات مهام متعددة مثل التعرف على الإيماءات اليدوية الديناميكية، وتحسين الصوت، والاعتراف بالحركة باستخدام صور RGB والمعالم الحركية للجسم.

MMTM: وحدة نقل متعددة الوسائط لدمج الشبكات العصبية التلافيفية | أحدث الأوراق البحثية | HyperAI