تعلم تمثيل الميزات متعددة الوسائط العميقة باستخدام التكامل متعدد الطبقات غير المتماثل

نُقدّم إطارًا مدمجًا وفعالًا لدمج الميزات متعددة الوسائط عبر طبقات متعددة ضمن شبكة واحدة. يتكوّن هذا الإطار من.schemeين مبتكرَين للدمج. أولاً، على عكس الطرق الحالية متعددة الوسائط التي تتطلب مشغلات منفصلة لكل وسائط، نُثبت أن ميزات الوسائط المتعددة يمكن تعلّمها داخل شبكة واحدة مشتركة، وذلك ببساطة من خلال الحفاظ على طبقات التطبيع المعياري الخاص بالوسائط داخل المشغل، ما يمكّن أيضًا من دمج ضمني من خلال تعلّم تمثيلات ميزات مشتركة. ثانيًا، نُقدّم scheme دمج ثنائي الاتجاه عبر طبقات متعددة، حيث يمكن استغلال الميزات متعددة الوسائط بشكل تدريجي. وللاستفادة من هذا الـscheme، نُقدّم عمليتين غير متماثلتين للدمج هما: تبديل القنوات (channel shuffle) والانزياح البكسل (pixel shift)، اللذين يتعلّمان ميزات مدمجة مختلفة حسب اتجاهات الدمج المختلفة. وتشتغل هاتان العمليتان دون معلمات، وتعززان التفاعل بين الميزات متعددة الوسائط عبر القنوات، كما تعززان التمييز المكاني للسمات داخل القنوات. أجرينا تجارب واسعة على مهام التجزئة الدلالية (semantic segmentation) وترجمة الصور (image translation)، باستخدام ثلاث مجموعات بيانات متاحة للعامة تغطي وسائط متنوعة. وأظهرت النتائج أن الإطار المقترح عام، مدمج، ويتفوّق على أطر الدمج الرائدة في مجاله.