HRFuser: معمارية تكامل مستشعرات متعددة الدقة للكشف عن الكائنات ثنائية الأبعاد

بالإضافة إلى الكاميرات القياسية، تضم المركبات ذاتية القيادة عادةً عددًا من المستشعرات الإضافية، مثل أجهزة الليدار والرادار، التي تساعد في جمع معلومات أكثر غنىً لفهم محتوى مشهد القيادة. وعلى الرغم من أن عدة أعمال حديثة تركز على دمج أزواج معينة من المستشعرات – مثل الكاميرا مع الليدار أو الرادار – باستخدام مكونات معمارية مخصصة للسياق المُدرَس، إلا أن الأدبيات لا تزال تفتقر إلى هيكل دمج مستشعرات عام وقابل للتعديل. في هذه الدراسة، نقترح HRFuser، وهي بنية قابلة للتعديل للكشف عن الكائنات ثنائية الأبعاد متعددة النماذج. تعتمد HRFuser على دمج متعدد المستويات من المستشعرات، وتمتد لدعم عدد غير محدود من النماذج المدخلة. يُبنى تصميم HRFuser على أساس الشبكات عالية الدقة الحديثة المستخدمة في التنبؤ الكثيف للصور فقط، ويُدمج فيها كتلة انتباه متقاطع متعددة النوافذ جديدة كوسيلة لدمج النماذج المتعددة على مستويات دقة مختلفة. نُظهر من خلال تجارب واسعة على مجموعة بيانات nuScenes وعلى مجموعة بيانات DENSE التي تمثل ظروفًا صعبة أن نموذجنا يستفيد بشكل فعّال من الخصائص المكملة الناتجة عن النماذج الإضافية، مما يؤدي إلى تحسين كبير مقارنة بالأداء المبني فقط على الكاميرا، ويتفوق بشكل ثابت على أحدث الطرق المدمجة ثنائية وثلاثية الأبعاد عند تقييمها باستخدام مقاييس الكشف عن الكائنات ثنائية الأبعاد. تم إتاحة الكود المصدري بشكل عام.