HyperAIHyperAI
منذ 11 أيام

TransFusion: تكامل قوي بين LiDAR وكاميرا للكشف عن الأجسام ثلاثية الأبعاد باستخدام Transformers

Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, Chiew-Lan Tai
TransFusion: تكامل قوي بين LiDAR وكاميرا للكشف عن الأجسام ثلاثية الأبعاد باستخدام Transformers
الملخص

تُعدّ مستشعرات LiDAR والكاميرا من المستشعرات الأساسية للكشف عن الأجسام ثلاثية الأبعاد في القيادة الذاتية. وعلى الرغم من الانتشار المتزايد لدمج المستشعرات في هذا المجال، فإن المقاومة تجاه ظروف صورة رديئة، مثل الإضاءة السيئة أو عدم التزامن بين المستشعرات، ما زالت غير مكتملة الاستكشاف. إن طرق الدمج الحالية تتأثر بسهولة بهذه الظروف، وذلك أساسًا بسبب الربط الثابت بين نقاط LiDAR وبكسلات الصورة، الذي يُنشأ عبر مصفوفات المعايرة. نقترح منهجية TransFusion، وهي حل مُقاوم لدمج LiDAR والكاميرا، تُعتمد على آلية ارتباط لينة (Soft-association) لمعالجة الظروف الرديئة للصورة. بشكل محدد، يتكوّن TransFusion من هيكل أساسي قائم على التحويل (convolutional backbones) ورأس كشف مبني على معالج تحويلي (transformer decoder). يُنبِّئ الطبقة الأولى من المعالج بصناديق حدودية أولية من سحابة نقاط LiDAR باستخدام مجموعة نادرة من طلبات الكائنات، بينما تُدمج الطبقة الثانية من المعالج طلبات الكائنات بشكل تكيفي مع ميزات الصورة المفيدة، مع الاستفادة من العلاقات المكانية والسياقية معًا. يمكّن ميكانيزم الانتباه في التحويلي النموذج من تحديد تكيفي لأين وما المعلومات التي ينبغي استخلاصها من الصورة، مما يؤدي إلى استراتيجية دمج قوية وفعالة. كما قمنا بتصميم استراتيجية تهيئة طلبات موجهة بالصورة للتعامل مع الكائنات التي يصعب اكتشافها في سحابة النقاط. تحقق TransFusion أداءً متقدمًا على مستويات متقدمة في مجموعات بيانات كبيرة. ونقدّم تجارب واسعة لتوضيح مقاومتها لانهيار جودة الصورة وأخطاء المعايرة. كما قمنا بتوسيع المنهجية المقترحة لتطبيقها في مهام التتبع ثلاثي الأبعاد، وحققنا المركز الأول في قائمة التصنيف (leaderboard) الخاصة بتتبع nuScenes، مما يُظهر فعالية وقابلية تعميم عالية للنموذج.

TransFusion: تكامل قوي بين LiDAR وكاميرا للكشف عن الأجسام ثلاثية الأبعاد باستخدام Transformers | أحدث الأوراق البحثية | HyperAI