GeoBEV: تعلّم تمثيل BEV الهندسي للكشف عن الكائنات ثلاثية الأبعاد متعددة الرؤى

تم ظهور تمثيل الرؤية من الأعلى (BEV) كنمط رئيسي للكشف ثلاثي الأبعاد عن الكائنات من أكثر من منظور، حيث أظهر قدرات إدراكية مذهلة. ومع ذلك، فإن الطرق الحالية تتجاهل الجودة الهندسية لتمثيل BEV، مما يتركه في حالة ذات دقة منخفضة، ولا يُمكنه استعادة المعلومات الهندسية الحقيقية للمنظر. في هذا البحث، نحدد العيوب الموجودة في الأساليب السابقة التي تحد من الجودة الهندسية لتمثيل BEV، ونُقدّم طريقة عينة BEV ذات المحور الشعاعي-الديكارتي (RC-Sampling)، والتي تتفوّق على غيرها من أساليب تحويل الميزات في إنشاء تمثيل BEV كثيف عالي الدقة بكفاءة، بهدف استعادة المعلومات الهندسية الدقيقة. علاوةً على ذلك، نصمم علامة جديدة تُسمى "العلامة داخل الصندوق" (In-Box Label) بديلًا للعلامة التقليدية الناتجة عن نقاط ليدار، حيث تعكس البنية الهندسية الفعلية للكائنات، وليس مجرد أسطحها، مما يُضفي معلومات هندسية واقعية على تمثيل BEV. وبالاقتران مع علامة In-Box، نطوّر خسارة داخلية واعية بالمركز (CAI Loss) لالتقاط البنية الهندسية الداخلية للكائنات. وأخيرًا، ندمج جميع الوحدات المذكورة سابقًا في كاشف ثلاثي الأبعاد متعدد المناظر جديد يُسمى GeoBEV، والذي حقق نتيجة متقدمة على مستوى العالم بـ 66.2% NDS على مجموعة اختبار nuScenes. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/mengtan00/GeoBEV.git.