تقديم تقسيم معاني عشوائي الوضعيات

يمكن أن يجعل التكامل متعدد الأوضاع (multimodal fusion) تقسيم الدلالة (semantic segmentation) أكثر ثباتًا. ومع ذلك، فإن تكامل عدد غير محدد من الأوضاع لا يزال مجالًا قليل الاستكشاف. لاستكشاف هذه المشكلة، نقوم بإنشاء معيار DeLiVER للتقسيم متعدد الأوضاع، والذي يغطي العمق (Depth)، والليدار (LiDAR)، وآراء متعددة (multiple Views)، والأحداث (Events)، والصورة الملونة (RGB). بالإضافة إلى ذلك، نوفر هذاASET في أربع ظروف جوية شديدة وكذلك خمس حالات فشل للمستشعرات لاستغلال تكميلية الأوضاع وحل مشكلات الانقطاع الجزئي. لتحقيق هذا الهدف، نقدم نموذج CMNeXt للتكيف العرضي متعدد الأوضاع. يتضمن هذا النموذج مركز استعلام ذاتي (Self-Query Hub - SQ-Hub) مصمم لاستخراج المعلومات الفعالة من أي وضعية لدمجها مع تمثيل الصورة الملونة (RGB) ويضيف كمية قليلة جدًا من المعلمات (~0.01 مليون) لكل وضعية إضافية. بالإضافة إلى ذلك، لحصاد المؤشرات التمييزية بفعالية ومرونة من الأوضاع المساعدة، نقدم مزج التجميع المتوازي البسيط (Parallel Pooling Mixer - PPX). من خلال التجارب الواسعة على ستة مقاييس إجماليًا، يحقق نموذج CMNeXt أداءً رائدًا في معايير DeLiVER وKITTI-360 وMFNet وNYU Depth V2 وUrbanLF وMCubeS، مما يسمح بالتوسع من وضع واحد إلى 81 وضعًا. على DeLiVER الذي تم جمعه حديثًا، يصل النموذج CMNeXt الرباعي الوضع إلى نسبة mIoU تبلغ 66.30٪ مع زيادة بنسبة +9.10٪ مقارنة بالنموذج الأساسي ذو الوضع الواحد. يمكن الوصول إلى مجموعة بيانات DeLiVER وكودنا عبر الرابط: https://jamycheung.github.io/DELIVER.html.