HyperAIHyperAI
منذ 17 أيام

البحث العميق في البنية العصبية متعددة الوسائط

Zhou Yu, Yuhao Cui, Jun Yu, Meng Wang, Dacheng Tao, Qi Tian
البحث العميق في البنية العصبية متعددة الوسائط
الملخص

تصميم الشبكات العصبية الفعالة يُعد أمرًا أساسيًا في التعلم العميق متعدد الوسائط. تتركز معظم الدراسات الحالية على مهمة واحدة، وتُصمم فيها الهياكل العصبية يدويًا، ما يجعلها متخصصة للغاية في المهمة، وصعبة التعميم على مهام مختلفة. في هذا البحث، نُقدّم إطارًا عامًا لبحث الهيكل العصبي العميق متعدد الوسائط (MMnas) يناسب مهام تعلم متعدد الوسائط المختلفة. مع إدخال مدخلات متعددة الوسائط، نحدّد أولًا مجموعة من العمليات الأساسية، ثم نبني هيكلًا أساسيًا موحدًا مبنيًا على نموذج ترميز-إعادة ترميز عميق، حيث يتوافق كل كتلة ترميز أو إعادة ترميز مع عملية تم اختيارها من مجموعة مسبقة من العمليات. فوق هذا الهيكل الأساسي الموحد، نُلحِق رؤوسًا مخصصة لكل مهمة لمعالجة مهام تعلم متعدد الوسائط المختلفة. وباستخدام خوارزمية بحث هندسي للهياكل العصبية تعتمد على التدرج، نتمكن من تعلّم الهياكل المثلى لكل مهمة بشكل فعّال. تُظهر الدراسات التحليلية الواسعة، والتحليل الشامل، والنتائج التجريبية المقارنة أن الشبكة الناتجة (MMnasNet) تتفوّق بشكل ملحوظ على الطرق الرائدة الحالية في ثلاث مهام لتعلم متعدد الوسائط (على أكثر من خمسة مجموعات بيانات)، تشمل الإجابة على الأسئلة البصرية، وتوافق الصورة والنص، والتوجيه البصري.

البحث العميق في البنية العصبية متعددة الوسائط | أحدث الأوراق البحثية | HyperAI