البحث العميق في البنية العصبية متعددة الوسائط

تصميم الشبكات العصبية الفعالة يُعد أمرًا أساسيًا في التعلم العميق متعدد الوسائط. تتركز معظم الدراسات الحالية على مهمة واحدة، وتُصمم فيها الهياكل العصبية يدويًا، ما يجعلها متخصصة للغاية في المهمة، وصعبة التعميم على مهام مختلفة. في هذا البحث، نُقدّم إطارًا عامًا لبحث الهيكل العصبي العميق متعدد الوسائط (MMnas) يناسب مهام تعلم متعدد الوسائط المختلفة. مع إدخال مدخلات متعددة الوسائط، نحدّد أولًا مجموعة من العمليات الأساسية، ثم نبني هيكلًا أساسيًا موحدًا مبنيًا على نموذج ترميز-إعادة ترميز عميق، حيث يتوافق كل كتلة ترميز أو إعادة ترميز مع عملية تم اختيارها من مجموعة مسبقة من العمليات. فوق هذا الهيكل الأساسي الموحد، نُلحِق رؤوسًا مخصصة لكل مهمة لمعالجة مهام تعلم متعدد الوسائط المختلفة. وباستخدام خوارزمية بحث هندسي للهياكل العصبية تعتمد على التدرج، نتمكن من تعلّم الهياكل المثلى لكل مهمة بشكل فعّال. تُظهر الدراسات التحليلية الواسعة، والتحليل الشامل، والنتائج التجريبية المقارنة أن الشبكة الناتجة (MMnasNet) تتفوّق بشكل ملحوظ على الطرق الرائدة الحالية في ثلاث مهام لتعلم متعدد الوسائط (على أكثر من خمسة مجموعات بيانات)، تشمل الإجابة على الأسئلة البصرية، وتوافق الصورة والنص، والتوجيه البصري.