منذ 3 أشهر

كشف كائنات ثلاثية الأبعاد متعددة الوسائط المقاومة من خلال فك ترميز غير متمايز حسب الوسائط وتوحيد وسائط مبني على القرب

Juhan Cha, Minseok Joo, Jihwan Park, Sanghyeok Lee, Injae Kim, Hyunwoo J. Kim

الملخص

لقد استفادت التطورات الحديثة في كشف الأجرام ثلاثية الأبعاد من المعلومات متعددة الوسائط المتوفرة من الكاميرات متعددة الزوايا وأجهزة ليدار. ومع ذلك، فإن الفروقات الجوهرية بين هذه الوسائط تفرض تحديات كبيرة. لاحظنا أن الطرق الحالية للكشف ثلاثي الأبعاد باستخدام وسائط متعددة تعتمد بشكل كبير على جهاز ليدار، وتُعامل الكاميرا باعتبارها وسيلة مساعدة لتعزيز التفاصيل الدلالية. وهذا يُؤدي غالبًا إلى عدم الاستفادة الكاملة من بيانات الكاميرا، بالإضافة إلى تدهور كبير في الأداء في السيناريوهات التي لا تكون فيها بيانات ليدار متاحة. علاوةً على ذلك، تتجاهل الطرق الحالية لدمج البيانات التأثير السلبي للضوضاء الناتجة عن التغيرات البيئية على أداء الكشف. في هذا البحث، نقترح MEFormer لمعالجة مشكلة الاعتماد المفرط على ليدار من خلال استغلال المعلومات الحاسمة للكشف ثلاثي الأبعاد من كل وسيلة متاحة، مع الحفاظ في الوقت نفسه على حماية البيانات من الإشارات التالفة أثناء عملية الدمج. وبشكل خاص، نُقدّم آلية استخلاص غير مُستندة إلى الوسيلة (Modality Agnostic Decoding - MOAD)، التي تستخرج الميزات الهندسية والدلالية باستخدام مُفكّك محول مشترك (transformer decoder) بغض النظر عن نوع الوسيلة المدخلة، وتوفر تحسينًا ملحوظًا حتى مع استخدام وسيلة واحدة أو وسائط متعددة. بالإضافة إلى ذلك، يُقدّم وحدتنا المُجمعة القائمة على القرب (Proximity-based Modality Ensemble - PME) طريقة تكيفية لاستغلال المزايا الفريدة لكل وسيلة حسب البيئة، مع تقليل تأثير الأجهزة الملوثة بالضوضاء. تحقق MEFormer أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art) بتحقيق 73.9% من NDS و71.5% من mAP على مجموعة التحقق من nuScenes. وتم التحقق من خلال تحليلات واسعة أن MEFormer يعزز المقاومة أمام الظروف الصعبة مثل أعطال الأجهزة أو التغيرات البيئية. يُمكن الاطلاع على الشفرة المصدرية عبر الرابط: https://github.com/hanchaa/MEFormer