LATR: اكتشاف المسار ثلاثي الأبعاد من الصور أحادية العدسة باستخدام المحول (Transformer)

كشف المسارات ثلاثية الأبعاد من الصور أحادية العدسة هو مهمة أساسية ومعقدة في مجال القيادة الذاتية. ترتكب التقدمات الحديثة بشكل أساسي على نماذج هيكلية ثلاثية الأبعاد (مثل، الرؤية الطيرية) مبنية من خصائص الصور الأمامية ومواصفات الكاميرا. ومع ذلك، فإن الغموض في العمق في الصور أحادية العدسة يسبب حتماً عدم تطابق بين الخريطة المميزة المبنية والصورة الأصلية، مما يشكل تحدياً كبيراً للكشف الدقيق عن المسارات. لحل هذه المشكلة، نقدم نموذجاً جديداً يُسمى LATR، وهو كاشف مسارات ثلاثي الأبعاد يعمل من النهاية إلى النهاية ويستخدم خصائص الرؤية الأمامية الواعية بالبعد الثالث دون الحاجة إلى تمثيلات للرؤية المحولة. بوجه خاص، يكتشف LATR المسارات الثلاثية الأبعاد عبر انتباه متقاطع يستند إلى زوجيات الاستفسار والمفتاح-القيمة، التي يتم بناؤها باستخدام مولد الاستفسارات الواعي بالمسارات ومدمج التضمين الموضعي ثلاثي الأبعاد الديناميكي لدينا.من جهة أخرى، يتم إنشاء كل استفسار بناءً على خصائص المسارات ثنائية الأبعاد ويعتمد على تضمين هجين لتعزيز المعلومات المتعلقة بالمسارات. ومن الجهة الأخرى الأخرى، يتم حقن المعلومات الخاصة بالفضاء الثلاثي الأبعاد كتضمين موضعي من مستوى الأرض ثلاثي الأبعاد الذي يتم تحديثه بشكل متكرر. أثبت LATR فعاليته بتفوقه الكبير على الأساليب السابقة الأكثر تقدماً في كل من مجموعة بيانات Apollo المصنعة وOpenLane الواقعية وONCE-3DLanes (مثل، زيادة بنسبة 11.4 نقطة بالنسبة لدرجة F1 في OpenLane). سيتم نشر الشفرة البرمجية في الرابط التالي: https://github.com/JMoonr/LATR .