نهج التعلم العميق من المحاكاة إلى الواقع لتحويل الصور من كاميرات متعددة مثبتة على المركبات إلى صورة مقسمة معنويًا في عرض العين الطائر

الإدراك الدقيق للبيئة ضروري للقيادة الآلية. عند استخدام الكاميرات أحادية العدسة، يشكل تقدير المسافات بين العناصر في البيئة تحديًا رئيسيًا. يمكن تقدير المسافات بسهولة أكبر عندما يتم تحويل منظور الكاميرا إلى منظور الطائر (BEV). بالنسبة للأسطح المستوية، يمكن لخريطة المنظور العكسي (IPM) تحويل الصور بدقة إلى منظور الطائر. ومع ذلك، فإن الأشياء ثلاثية الأبعاد مثل المركبات والمستخدمين الضعفاء للطريق تتعرض للتضويع بسبب هذا التحويل، مما يجعل تقدير موضعها نسبيًا حيال الحساسة صعبًا. يصف هذا البحث منهجية للحصول على صورة بانورامية مصححة بزاوية 360 درجة (360° BEV) باستخدام صور من عدة كاميرات مثبتة على المركبة. يتم تقسيم الصورة البانورامية المصححة إلى فئات معنوية وتشمل تنبؤًا بالمناطق المحجوبة. لا تعتمد طريقة الشبكة العصبية على البيانات المصنفة يدويًا، بل يتم تدريبها على مجموعة بيانات اصطناعية بطريقة تمكنها من التعميم بشكل جيد على البيانات الحقيقية. عن طريق استخدام الصور المقسمة معنويًا كمدخلات، نقلل الفجوة بين البيانات المحاكاة والبيانات الحقيقية ونتمكن من إظهار أن طريقتنا يمكن تطبيقها بنجاح في العالم الحقيقي. تُظهر التجارب الواسعة التي أجريت على البيانات الاصطناعية تفوق طريقتنا مقارنة بخريطة المنظور العكسي (IPM). يمكن الوصول إلى الكود المصدر ومجموعات البيانات عبر الرابط: https://github.com/ika-rwth-aachen/Cam2BEV