HyperAIHyperAI
منذ 2 أشهر

ال Transformers متعددة الآراء للفصل الدلالي في الوقت الفعلي للخريطة

Zhou, Brady ; Krähenbühl, Philipp
ال Transformers متعددة الآراء للفصل الدلالي في الوقت الفعلي للخريطة
الملخص

نقدم نماذج الترانسفورمرات العرض المتقاطع، وهي نموذج كفؤ مبني على آلية الانتباه لتمييز الدلالة من الخرائط باستخدام كاميرات متعددة. يتعلم هندسة النموذج بشكل ضمني تحويلًا من عروض الكاميرات الفردية إلى تمثيل خريطة قياسي باستخدام آلية انتباه عرض متقاطع تدرك الكاميرا. تعتمد كل كاميرا على تضمينات موضعية تعتمد على ضبطها الذاتي والخارجي. هذه التضمينات تسمح للترانسفورمر بتعلم التحويل بين العروض المختلفة دون الحاجة إلى نمذجة هذا التحويل بشكل جغرافي صريح. يتكون الهيكل من مُشفِّر صورة تقني للتحويل لكل عرض وطبقات ترانسفورمر عرض متقاطع لاستنتاج تمييز الدلالة من الخريطة. نموذجنا بسيط، يمكن تنفيذه بالتوازي بسهولة، ويُشغل في الوقت الحقيقي. يحقق الهيكل المقدم أداءً رائدًا في مجموعة بيانات nuScenes، مع سرعات استدلال أسرع بأربع مرات. الرمز البرمجي متاح على الرابط https://github.com/bradyz/cross_view_transformers.

ال Transformers متعددة الآراء للفصل الدلالي في الوقت الفعلي للخريطة | أحدث الأوراق البحثية | HyperAI