CAFuser: الاندماج متعدد الوسائط مع الوعي بالظروف للاستشعار الدلالي القوي لمواقع القيادة

استخدام أجهزة الاستشعار المتعددة أمر حاسم لتحقيق الإدراك الدلالي القوي في القيادة الذاتية، حيث أن كل نوع من أجهزة الاستشعار له نقاط قوة وضعف مكملة. ومع ذلك، فإن طرق دمج أجهزة الاستشعار الحالية غالباً ما تتعامل مع الأجهزة بشكل موحد في جميع الظروف، مما يؤدي إلى أداء غير مثالي. على العكس من ذلك، نقترح نهجًا جديدًا لدمج متعدد الأوضاع يعتمد على الظروف لتحقيق إدراك دلالي قوي للمناظر المرورية. طريقتنا، CAFuser (كافيوسر)، تستخدم مدخل كاميرا RGB لتصنيف ظروف البيئة وإنشاء رمز حالة (Condition Token) يوجه عملية دمج أنواع متعددة من أجهزة الاستشعار. كما نقدم لأول مرة متكيفات خصائص خاصة بكل وضعية (modality-specific feature adapters) لتوفير تناسق بين المدخلات المختلفة لأجهزة الاستشعار في فضاء خفي مشترك، مما يمكن من التكامل الفعال باستخدام هيكل أساسي مشترك ومُدرب مسبقًا. عن طريق التكيف الديناميكي لعملية دمج أجهزة الاستشعار بناءً على الحالة الفعلية، يحسن نموذجنا بشكل كبير من صلابة الدقة والدقة، خاصة في السيناريوهات ذات الظروف الصعبة. يحتل CAFuser المركز الأول في مقاييس MUSES العامة، بتحقيقه 59.7 PQ للبانوراما المتعددة الأوضاع و78.2 mIoU للتقسيم الدلالي، كما أنه يحدد الحالة الجديدة للمستوى الرائد في DeLiVER. الكود المصدر متاح للعامة على الرابط: https://github.com/timbroed/CAFuser.