التكيف الذاتي للنموذج للتقسيم الدلالي متعدد الوسائط

تعلم الإدراك والفهم الموثوق للمشهد هو مكون أساسي يمكّن الروبوتات من العمل في العالم الحقيقي. يعتبر هذا التحدي متأصلاً بسبب تنوع أنواع الأشياء والتغيرات في المظهر الناجمة عن تباين الإضاءة وظروف الطقس. يمكن للاستفادة من الوسائط المتعددة المكملة بعضها البعض تمكين تعلم تمثيلات ذات معنى أكثر غنى والتي تكون مقاومة لهذه الاضطرابات. رغم التقدم الهائل الذي تحقق في السنوات الأخيرة، فإن معظم نماذج الشبكات العصبية التلافيفية متعددة الوسائط تقوم بدمج الخرائط المميزة من كل وسيلة مباشرة، مما يجعل النموذج غير قادر على التركيز فقط على المعلومات التكميلية ذات الصلة للدمج. لمعالجة هذه الحدود، نقترح إطارًا للتقسيم الدلالي متعدد الوسائط يتكيف ديناميكيًا مع دمج الخصائص الخاصة بكل وسيلة مع الحساسية لنوع الكائن، الموقع الفضائي وسياق المشهد بطريقة ذاتية الإشراف. تحديدًا، نقترح بنية تتكون من مسارين مشفر خاصين بالوسائط التي تدمج تمثيلات المشفر المتوسطة إلى مشفر واحد باستخدام آلية دمج التكيف الذاتي المقترحة لدينا، والتي تجمع بين الخصائص التكميلية بشكل مثالي. بما أن التمثيلات المتوسطة ليست محاذاة عبر الوسائط، فقد قمنا بتقديم نظام انتباه لتحقيق ارتباط أفضل. بالإضافة إلى ذلك، نقترح بنية تقسيم أحادي الوسيلة كفوءة حسابيًا تُعرف بـ AdapNet++ (أداپنت بلس بلس) والتي تتضمن مشفرًا جديدًا مع وحدات باقي متعددة الأبعاد ومزج فضائي هرموني كفوء يمتلك مجال استقبال فعال أكبر بمزيد من 10 أضعاف القليل من المعاملات، مكملًا بذلك بمشفر قوي مع نظام إشراف متعدد الدقة يستعيد التفاصيل عالية الدقة. تُظهر التقييمات التجريبية الشاملة على عدة مقاييس أن كل من هندستنا أحادية الوسيلة ومتعددة الوسائط تحقق أداءً رائدًا في المجال.