HyperAIHyperAI
منذ 11 أيام

تُعدّ اتساق الميزات الضمنية والصريحة أمرًا مهمًا للكشف عن الكائنات ثلاثية الأبعاد من منظور واحد

Qian Ye, Ling Jiang, Wang Zhen, Yuyang Du
تُعدّ اتساق الميزات الضمنية والصريحة أمرًا مهمًا للكشف عن الكائنات ثلاثية الأبعاد من منظور واحد
الملخص

تُستخدم الوكلاء المستقلون منخفضو التكلفة، بما في ذلك المركبات ذاتية القيادة، بشكل رئيسي الكشف عن الكائنات الثلاثية الأبعاد من خلال كاميرا واحدة لاستشعار البيئة المحيطة. يتناول هذا البحث أساليب تمثيل متوسط ثلاثي الأبعاد تُولّد ميزات ثلاثية الأبعاد وسيطة لمهام لاحقة. على سبيل المثال، يمكن استخدام هذه الميزات الثلاثية كمدخلات ليس فقط للكشف، بل أيضًا للتنبؤ و/أو التخطيط من النمط المتكامل (end-to-end) الذي يتطلب تمثيلًا ميزة من منظور الطيور (Bird's-Eye-View). في هذه الدراسة، اكتشفنا أن الأساليب السابقة في إنشاء تمثيل ثلاثي الأبعاد لا تحافظ على اتساق الوضع الضمني للكائنات في الفضاء الخفي، وخاصة الاتجاهات، مع الوضع المُراقب صراحةً في الفضاء الإقليدي، مما قد يؤثر بشكل كبير على أداء النموذج. ولحل هذه المشكلة، نقدّم طريقة كشف مونوكولار جديدة، وهي أول طريقة تُدرك الوضع وتُهدف إلى ضمان الاتساق بين الميزات الضمنية والصريحة. علاوةً على ذلك، نُقدّم آلية انتباه شعاعي محلي لتحويل ميزات الصورة إلى مكعبات (Voxels) بشكل فعّال في المواقع ثلاثية الأبعاد الدقيقة. ثالثًا، نقترح دالة ترميز موقعي بياني مُصممة يدويًا (handcrafted Gaussian positional encoding)، التي تتفوّق على دالة الترميز الجيبي (sinusoidal encoding) مع الحفاظ على ميزة الاستمرارية. تُظهر النتائج أن طريقةنا تُحسّن أداء أفضل طريقة حالية لتمثيل متوسط ثلاثي الأبعاد بنسبة 3.15٪. وتم تصنيفنا في المرتبة الأولى بين جميع الأساليب المونوكولار المُبلغ عنها في معايير كشف الكائنات ثلاثية الأبعاد وبيئة منظور الطيور (BEV) على لوحة معايير KITTI في وقت إرسال النتائج.