الحل الثاني في مسابقة مجموعة بيانات Waymo المفتوحة – الكشف الفوري عن الكائنات ثنائية الأبعاد

في نظام القيادة الذاتية، من الضروري التعرف على المركبات والمشاة والدراجين من خلال الصور. وبالإضافة إلى الدقة العالية في التنبؤ، فإن متطلبات التشغيل في الوقت الفعلي تطرح تحديات جديدة على نماذج الشبكات التلافيفية (Convolutional Neural Networks). في هذا التقرير، نقدم طريقة في الوقت الفعلي للكشف عن الأجسام ثنائية الأبعاد من الصور. نقوم بدمج عدة كاشفات كائنات ذات مرحلة واحدة شائعة الاستخدام، ونُدرّب نماذج باستراتيجيات إدخال متنوعة بشكل مستقل، بهدف تحقيق أداء أفضل في الكشف الدقيق متعدد المقياس لكل فئة، وخاصةً للأجسام الصغيرة. وبالنسبة لتسريع النموذج، نستفيد من أداة TensorRT لتحسين زمن الاستدلال في خط أنابيب الكشف لدينا. وكما يُظهر الترتيب الرئيسي (leaderboard)، يحتل الإطار المُقترح المرتبة الثانية بـ 75.00% لـ L1 mAP و69.72% لـ L2 mAP في مسار الكشف ثنائي الأبعاد في الوقت الفعلي ضمن منافسة مجموعة بيانات Waymo Open Dataset، مع تحقيق إطار العمل لدينا زمن تأخير قدره 45.8 مللي ثانية/إطار على وحدة معالجة رسوميات Nvidia Tesla V100.