HyperAIHyperAI
منذ 2 أشهر

CMX: الاندماج متعدد الوسائط لتقسيم الدلالات بين RGB-X باستخدام الترانسفورمرز

Zhang, Jiaming ; Liu, Huayao ; Yang, Kailun ; Hu, Xinxin ; Liu, Ruiping ; Stiefelhagen, Rainer
CMX: الاندماج متعدد الوسائط لتقسيم الدلالات بين RGB-X باستخدام الترانسفورمرز
الملخص

فهم المشهد المستند إلى تقسيم الصور هو مكون حاسم في المركبات ذاتية القيادة. يمكن تطوير تقسيم الصور الدلالي على مستوى البكسل لصور RGB من خلال استغلال الخصائص التكميلية من الوسيلة الإضافية (X-modality). ومع ذلك، فإن تغطية مجموعة واسعة من الأجهزة الحسّاسة بنموذج لا يعتمد على الوسيلة يظل مشكلة غير محلولة بسبب الاختلافات في خصائص الحساسات بين الوسائط المختلفة. على عكس الأساليب السابقة التي تعتمد على وسيلة معينة، نقترح في هذا العمل إطارًا موحدًا للدمج، وهو CMX، لتقسيم الصور الدلالي RGB-X. لتحقيق تعميم جيد عبر الوسائط المختلفة، والتي غالبًا ما تتضمن إضافات وكذلك عدم اليقين، يعد التفاعل العابر للوسائط الموحد أمرًا حاسمًا للدمج بين الوسائط. بشكل خاص، نصمم وحدة تصحيح الميزات العابرة للوسائط (CM-FRM) لضبط الميزات الثنائية باستخدام ميزات وسيلة واحدة لتصحيح ميزات الوسيلة الأخرى. باستخدام أزواج الميزات المصححة، نقوم بنشر وحدة دمج الميزات (FFM) لأداء تبادل كافٍ للسياقات البعيدة قبل الخلط. لتحقق من CMX، ولأول مرة، نوحّد خمسة أنواع من الوسائط التكميلية لـ RGB، وهي: العمق والحرارة والتقطيب والأحداث وLiDAR. تظهر التجارب الشاملة أن CMX يتعمم بشكل جيد على دمج متعدد الوسائط المتنوع، مما يجعله يحقق أفضل الأداء في خمسة مقاييس مرجعية لـ RGB-Depth، بالإضافة إلى مجموعات بيانات RGB-Thermal وRGB-Polarization وRGB-LiDAR. بالإضافة إلى ذلك، لتحقيق دراسة قابلية التعميم في دمج البيانات الكثيفة والنادرة، قمنا بإنشاء مقاييس مرجعية لتقطيع الصور الدلالي RGB-Event بناءً على مجموعة بيانات EventScape، حيث يحدد CMX أحدث أفضل أداء عليها. الرمز المصدر لـ CMX متاح بشكل عام على الرابط https://github.com/huaaaliu/RGBX_Semantic_Segmentation.

CMX: الاندماج متعدد الوسائط لتقسيم الدلالات بين RGB-X باستخدام الترانسفورمرز | أحدث الأوراق البحثية | HyperAI