HyperAIHyperAI
منذ 16 أيام

EPMF: دمج متعددة الحساسات الشاملة للإدراك بكفاءة للفصل الدلالي ثلاثي الأبعاد

Mingkui Tan, Zhuangwei Zhuang, Sitao Chen, Rong Li, Kui Jia, Qicheng Wang, Yuanqing Li
EPMF: دمج متعددة الحساسات الشاملة للإدراك بكفاءة للفصل الدلالي ثلاثي الأبعاد
الملخص

ندرس دمج الاستشعار المتعدد للفصل الدلالي ثلاثي الأبعاد، وهو أمر بالغ الأهمية لفهم المشهد في العديد من التطبيقات مثل القيادة الذاتية والروبوتات. ومع ذلك، قد لا تحقق الطرق القائمة على الدمج أداءً مرضياً بسبب الفرق الكبير بين النوعين من البيانات. في هذا العمل، نستعرض نموذجًا متعاونًا للدمج يُسمى دمج الاستشعار المُدرك (PMF) لاستغلال المعلومات الإدراكية الفعّالة من نوعين من البيانات: المعلومات البصرية من الصور الملونة (RGB) والمعلومات الفضائية العميقة من السحابات النقطية (Point Clouds). لتحقيق ذلك، نقوم بتحويل السحابات النقطية إلى إحداثيات الكاميرا باستخدام التصوير المتناظر، ونُعالج كلا المدخلين من ليدار والكاميرات في الفضاء ثنائي الأبعاد مع الحفاظ على عدم فقدان معلومات الصور RGB. ثم نقترح شبكة ذات تدفقين لاستخراج الميزات من النوعين من البيانات بشكل منفصل، وتُدمج الميزات المستخرجة باستخدام وحدات دمج فعّالة تعتمد على التراكب التراكمي. بالإضافة إلى ذلك، نُقدّم خسائر إدراكية إضافية لقياس الفرق الإدراكي بين النوعين من البيانات. وأخيرًا، نقترح نسخة مُحسّنة من PMF تُسمى EPMF، والتي تكون أكثر كفاءة وفعالية من خلال تحسين معالجة البيانات الأولية وبنية الشبكة تحت التصوير المتناظر. وبشكل خاص، نقترح تزامنًا بين الأنواع (Cross-modal Alignment) وقطعًا مكثّفًا للإدخالات (Cropping) للحصول على مدخلات دقيقة وتقليل التكاليف الحسابية غير الضرورية. ثم نستكشف وحدات سياقية أكثر كفاءة تحت التصوير المتناظر، ونُدمج ميزات ليدار في تدفق الكاميرا لتعزيز أداء الشبكة ذات التدفقين. أظهرت التجارب الواسعة على مجموعات بيانات معيارية تفوق أسلوبنا. على سبيل المثال، على مجموعة اختبار nuScenes، تفوق EPMF الأسلوب الرائد في المجال، أي RangeFormer، بنسبة 0.9% في مقياس mIoU. يمكن الوصول إلى الشفرة المصدرية الخاصة بنا عبر الرابط: https://github.com/ICEORY/PMF.

EPMF: دمج متعددة الحساسات الشاملة للإدراك بكفاءة للفصل الدلالي ثلاثي الأبعاد | أحدث الأوراق البحثية | HyperAI