
لقد حققت التعلم متعدد الوسائط العميق تقدماً كبيراً في السنوات الأخيرة. ومع ذلك، فإن الطرق الحالية للدمج تتمتع بطبيعة ثابتة، أي أنها تُعالج وتدمج المدخلات متعددة الوسائط بنفس الكمية الحسابية دون أخذ الطلب المتنوع على الحوسبة من مختلف البيانات متعددة الوسائط بعين الاعتبار. في هذه الدراسة، نقترح منهجية جديدة تُسمى الدمج الديناميكي متعدد الوسائط (DynMM)، التي تُدمج البيانات متعددة الوسائط بشكل تكيفي وتُولِّد مسارات تقدمية تعتمد على البيانات أثناء الاستدلال. ولتحقيق ذلك، نقترح دالة توجيه (gating function) تُقدِّم قرارات على مستوى الوسائط أو على مستوى الدمج في الوقت الفعلي بناءً على ميزات البيانات متعددة الوسائط، إلى جانب دالة خسارة مُراعية للموارد تُشجع على الكفاءة الحسابية. أظهرت النتائج على مهام متعددة الوسائط المختلفة كفاءة وقابلية تطبيق واسعة لمنهجمتنا. على سبيل المثال، يمكن لـ DynMM تقليل تكاليف الحوسبة بنسبة 46.5% مع فقدان دقيق في الدقة (في تحليل مشاعر CMU-MOSEI)، وتحسين أداء التجزئة بنسبة تزيد عن 21% في الحوسبة (في مهام التجزئة الدلالية لبيانات NYU Depth V2)، مقارنة بالطرق الثابتة للدمج. نعتقد أن منهجيتنا تفتح اتجاهاً جديداً في تصميم الشبكات متعددة الوسائط الديناميكية، مع تطبيقات واسعة النطاق على مهام متعددة الوسائط المختلفة.