منذ 6 أشهر

الملخص

تصميم الشبكات العصبية الفعالة يُعد أمرًا أساسيًا في التعلم العميق متعدد الوسائط. تتركز معظم الدراسات الحالية على مهمة واحدة، وتُصمم فيها الهياكل العصبية يدويًا، ما يجعلها متخصصة للغاية في المهمة، وصعبة التعميم على مهام مختلفة. في هذا البحث، نُقدّم إطارًا عامًا لبحث الهيكل العصبي العميق متعدد الوسائط (MMnas) يناسب مهام تعلم متعدد الوسائط المختلفة. مع إدخال مدخلات متعددة الوسائط، نحدّد أولًا مجموعة من العمليات الأساسية، ثم نبني هيكلًا أساسيًا موحدًا مبنيًا على نموذج ترميز-إعادة ترميز عميق، حيث يتوافق كل كتلة ترميز أو إعادة ترميز مع عملية تم اختيارها من مجموعة مسبقة من العمليات. فوق هذا الهيكل الأساسي الموحد، نُلحِق رؤوسًا مخصصة لكل مهمة لمعالجة مهام تعلم متعدد الوسائط المختلفة. وباستخدام خوارزمية بحث هندسي للهياكل العصبية تعتمد على التدرج، نتمكن من تعلّم الهياكل المثلى لكل مهمة بشكل فعّال. تُظهر الدراسات التحليلية الواسعة، والتحليل الشامل، والنتائج التجريبية المقارنة أن الشبكة الناتجة (MMnasNet) تتفوّق بشكل ملحوظ على الطرق الرائدة الحالية في ثلاث مهام لتعلم متعدد الوسائط (على أكثر من خمسة مجموعات بيانات)، تشمل الإجابة على الأسئلة البصرية، وتوافق الصورة والنص، والتوجيه البصري.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار