HyperAIHyperAI
منذ 17 أيام

شبكات تبادل القنوات للتنبؤ بالصور الكثيفة متعددة الوسائط ومتعددة المهام

Yikai Wang, Fuchun Sun, Wenbing Huang, Fengxiang He, Dacheng Tao
شبكات تبادل القنوات للتنبؤ بالصور الكثيفة متعددة الوسائط ومتعددة المهام
الملخص

الدمج متعدد الوسائط والتعلم متعدد المهام هما موضوعان جوهريان في التعلم الآلي. وعلى الرغم من التقدم الوافر، ما زالت الطرق الحالية لحل هذين المشكلين عرضة لتحدي مشترك — إذ يظل من الصعب دمج المعلومات المشتركة بين الوسائط (أو المهام) مع الحفاظ على الأنماط الخاصة بكل وسيلة (أو مهمة). علاوةً على ذلك، وعلى الرغم من أن هذين المجالين مترابطان بشكل وثيق في الواقع، إلا أن دمجهما ضمن إطار منهجي واحد كان نادرًا جدًا في الأبحاث السابقة. في هذا البحث، نقترح شبكة تُسمى "شبكة تبادل القنوات" (CEN)، التي تتميز بالقدرة على التكيف الذاتي، وخلوّها من المعلمات، وأهمية كبيرة في تطبيقات التنبؤ الكثيف الصور متعددة الوسائط والمهام. في جوهرها، تقوم CEN بتبادل القنوات تلقائيًا بين الشبكات الفرعية المخصصة لوسائط مختلفة. وبشكل دقيق، يتم توجيه عملية تبادل القنوات ذاتيًا من خلال أهمية كل قناة، حيث تُقاس هذه الأهمية من خلال مقدار عامل التحجيم في التطبيع بالدُفعات (Batch-Normalization) أثناء التدريب. ولتقييم فعالية CEN في تطبيقات التنبؤ الكثيف للصور، تم اختبارها في أربع سيناريوهات مختلفة: دمج متعدد الوسائط، ودمج متعدد الوسائط الدائري، والتعلم متعدد المهام، ودمج متعدد الوسائط والتعلم متعدد المهام معًا. وقد أثبتت التجارب الواسعة نجاح CEN في مهام التجزئة الدلالية باستخدام بيانات RGB-D، وترجمة الصور عبر مدخلات متعددة المجالات، متفوقةً على الطرق الحالية الأفضل في مجالها. كما أُجريت دراسات تحليلية مفصلة (أبلاسيون) أظهرت مزايا كل مكون من المكونات المقترحة. يُمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/yikaiw/CEN.

شبكات تبادل القنوات للتنبؤ بالصور الكثيفة متعددة الوسائط ومتعددة المهام | أحدث الأوراق البحثية | HyperAI