التعلم من خلال التلاعب

القيادة الحضرية القائمة على الرؤية صعبة جدًا. تحتاج النظام الذاتي إلى تعلُّم كيفية إدراك العالم والتفاعل معه. نُظهر أن هذه المشكلة التعلُّمية الصعبة يمكن تبسيطها من خلال تفكيكها إلى مرحلتين. نُدرّب أولًا وكيلًا يتمتع بمعلومات مُقدَّمة (Privileged Information)، بحيث يخدع من خلال مراقبة التخطيط الحقيقي للبيئة ومواقع جميع المشاركين في الحركة. وفي المرحلة الثانية، يعمل هذا الوكيل المُزوَّد بالمعلومات المُقدَّمة كمُعلِّم لتدريب وكيل حسّي-حركي يعتمد فقط على الرؤية. يُصبح الوكيل الحسّي-الحركي الناتج غير مُتَّسِم بأي معلومات مُقدَّمة ولا يخدع. إن إجراء التدريب على مرحلتين يبدو في البداية غير مُتَوَقَّع، لكنه يمتلك عددًا من المزايا الهامة التي نحللها ونُثبتها تجريبيًا. نستخدم النهج المُقدَّم لتدريب نظام للقيادة الذاتية القائمة على الرؤية، يتفوَّق بشكل كبير على أحدث النماذج في معيار CARLA، وكذلك في معيار NoCrash الحديث. ويُحقِّق نهجنا، لأول مرة، معدل نجاح 100٪ في جميع المهام ضمن معيار CARLA الأصلي، ويُسجِّل رقماً قياسيًا جديدًا في معيار NoCrash، ويقلِّل من تكرار المخالفات بنسبة طبقة رياضية (أي بنسبة 10 أضعاف) مقارنةً بأحدث النماذج السابقة. لمزيد من التفاصيل حول هذا العمل، يُرجى مشاهدة الفيديو المرفق: https://youtu.be/u9ZCxxD-UUw