RepVF: تمثيل موحد للحقول المتجهية للاستشعار ثلاثي الأبعاد متعدد المهام

معالجة المهام المتعددة للإدراك ثلاثي الأبعاد في القيادة الذاتية ضمن نفس المشهد الزماني-المكاني تشكل تحديًا كبيرًا، وذلك بشكل خاص بسبب الكفاءة الحاسوبية المنخفضة والمنافسة بين الخصائص عند استخدام نماذج التعلم متعدد المهام التقليدية. يتناول هذا البحث هذه القضايا من خلال اقتراح تمثيل موحد جديد يُدعى RepVF، والذي يتناغم مع تمثيل مختلف مهام الإدراك مثل كشف الأجسام ثلاثية الأبعاد وكشف المسارات ثلاثية الأبعاد ضمن إطار واحد. يتميز RepVF بوصفه بنية الأهداف المختلفة في المشهد من خلال حقل متجهي (Vector Field)، مما يمكن النموذج من التعلم متعدد المهام برأس واحد ويعمل على تقليل التكرار الحاسوبي والمنافسة بين الخصائص بشكل كبير.بناءً على RepVF، نقدم RFTR، وهو شبكة مصممة للاستفادة من العلاقات الطبيعية بين المهام المختلفة باستخدام هيكل هرمي للأسئلة التي تُمثل علاقاتها ضمن المهام وبينها بشكل ضمني. هذا النهج يلغي الحاجة إلى رؤوس وأараметرات خاصة بكل مهمة، مما يقلل بشكل جوهري من الصراعات الموجودة في نماذج التعلم متعدد المهام التقليدية. نتحقق من صحة نهجنا من خلال دمج العلامات من مجموعة بيانات OpenLane مع مجموعة بيانات Waymo Open. يقدم عملنا تقدمًا كبيرًا في كفاءة وفعالية الإدراك متعدد المهام في القيادة الذاتية، ويقدم وجهة نظر جديدة لمعالجة المهام المتعددة للإدراك ثلاثي الأبعاد بطريقة متزامنة ومتوازية. سيتم توفير الكود في الرابط التالي:https://github.com/jbji/RepVF