إطلاق هيدرا: التكامل الهجين، والتوافق العمقي، والرادار للإدراك الثلاثي الأبعاد الموحد

حققت أنظمة الإدراك ثلاثي الأبعاد القائمة على الرؤية بتكلفة منخفضة تقدمًا كبيرًا في السنوات الأخيرة، مما قلص الفجوة مع الطرق المعتمدة على ليدار (LiDAR) باهظة الثمن. تحدي الوصول إلى بديل موثوق به تمامًا يكمن في قدرات التنبؤ بالعمق بشكل متين، حيث تعاني الأنظمة القائمة على الكاميرا من مدى اكتشاف طويل وظروف الإضاءة والطقس غير المواتية. في هذا البحث، نقدم نظام HyDRa، وهو هندسة دمج جديدة للكاميرا والرادار لأداء مهام الإدراك ثلاثي الأبعاد المتنوعة. بناءً على مبادئ الهندسة الكثيفة المستندة إلى عرض الطائر (BEV)، يُدخل HyDRa نهج دمج هجينًا لدمج نقاط القوة للخصائص المكملة للكاميرا والرادار في فضائيْن تمثيليين مختلفين. يستفيد وحدة تحويل ربط الارتفاع لدينا من خصائص الرادار الموجودة بالفعل في العرض المنظوري لإنتاج توقعات عمق أكثر متانة ودقة. في عرض الطائر (BEV)، نقوم بتحسين التمثيل النادر الأولي بواسطة توحيد العمق المرتكز على الرادار. حقق HyDRa مستوى جديدًا من التقدم في دمج الكاميرا والرادار بمعدل 64.2 NDS (+1.8) و58.4 AMOTA (+1.5) على مجموعة بيانات nuScenes العامة. بالإضافة إلى ذلك، يمكن تحويل الخصائص الغنية بالمعلومات والمحددةatially بدقة في عرض الطائر (BEV) لدينا مباشرةً إلى تمثيل شغل قوي، مما يتفوق على جميع الطرق السابقة القائمة على الكاميرا في مقاييس Occ3D بمقدار 3.7 mIoU بشكل ملحوظ. يمكن الحصول على الشفرة البرمجية والنماذج من https://github.com/phi-wol/hydra.请注意,最后一句中的 "spatially" 在阿拉伯语中被误译为 "mdefinedatially",正确的翻译应该是:يمكن تحويل الخصائص الغنية بالمعلومات والمحددة بدقة في عرض الطائر (BEV) لدينا مباشرةً إلى تمثيل شغل قوي، مما يتفوق على جميع الطرق السابقة القائمة على الكاميرا في مقاييس Occ3D بمقدار 3.7 mIoU بشكل ملحوظ.这是修正后的完整翻译: حققت أنظمة الإدراك ثلاثي الأبعاد القائمة على الرؤية بتكلفة منخفضة تقدمًا كبيرًا في السنوات الأخيرة، مما قلص الفجوة مع الطرق المعتمدة على ليدار (LiDAR) باهظة الثمن. تحدي الوصول إلى بديل موثوق به تمامًا يكمن في قدرات التنبؤ بالعمق بشكل متين، حيث تعاني الأنظمة القائمة على الكاميرا من مدى اكتشاف طويل وظروف الإضاءة والطقس غير المواتية. في هذا البحث، نقدم نظام HyDRa، وهو هندسة دمج جديدة للكاميرا والرادار لأداء مهام الإدراك ثلاثي الأبعاد المتنوعة. بناءً على مبادئ الهندسة الكثيفة المستندة إلى عرض الطائر (BEV)، يُدخل HyDRa نهج دمج هجينًا لدمج نقاط القوة للخصائص المكملة للكاميرا والرادار في فضائيْن تمثيليّين مختلفين. يستفيد وحدة تحويل ربط الارتفاع لدينا من خصائص الرادار الموجودة بالفعل في العرض المنظوري لإنتاج توقعات عمق أكثر متانة ودقة. في عرض الطائر (BEV)، نقوم بتحسين التمثيل النادر الأولي بواسطة توحيد العمق المرتكز على الرادار. حقق HyDRa مستوى جديدًا من التقدم في دمج الكاميرا والرادار بمعدل 64.2 NDS (+1.8) و58.4 AMOTA (+1.5) على مجموعة بيانات nuScenes العامة. بالإضافة إلى ذلك، يمكن تحويل الخصائص الغنية بالمعلومات والمحددة بدقة في عرض الطائر (BEV) لدينا مباشرةً إلى تمثيل شغل قوي، مما يتفوق على جميع الطرق السابقة القائمة على الكاميرا في مقاييس Occ3D بمقدار 3.7 mIoU بشكل ملحوظ. يمكن الحصول على الشفرة البرمجية والنماذج من https://github.com/phi-wol/hydra.