HyperAIHyperAI
منذ 3 أشهر

FocalFormer3D: التركيز على الحالات الصعبة للكشف عن الكائنات ثلاثية الأبعاد

Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
FocalFormer3D: التركيز على الحالات الصعبة للكشف عن الكائنات ثلاثية الأبعاد
الملخص

النتائج السلبية الكاذبة (FN) في كشف الأجسام ثلاثية الأبعاد، مثل فقدان تنبؤات المشاة أو المركبات أو العوائق الأخرى، يمكن أن تؤدي إلى حالات خطرة محتملة في القيادة الذاتية. وعلى الرغم من أن هذه المشكلة قد تكون قاتلة، إلا أنها تُدرس بشكل غير كافٍ في العديد من الطرق الحالية لكشف الأجسام ثلاثية الأبعاد. في هذا العمل، نقترح طريقة تُسمى استكشاف الأمثلة الصعبة (HIP)، وهي نموذج عام يُحدد النتائج السلبية الكاذبة بطريقة متعددة المراحل، ويدل النماذج على التركيز على اكتشاف الحالات الصعبة. بالنسبة لكشف الأجسام ثلاثية الأبعاد، نُطبّق هذه الطريقة في FocalFormer3D، وهو كاشف بسيط لكنه فعّال، يتميّز بقدرته العالية على اكتشاف الأجسام الصعبة وتحسين معدل الاستدعاء (recall). يتميز FocalFormer3D بعملية توليد الاستفسارات متعددة المراحل لاكتشاف الأجسام الصعبة، وبوحدة فك ترميز مبنية على المحولات (transformer) على مستوى الصندوق، لتمييز الأجسام بدقة من بين عدد كبير جدًا من المرشحات. تؤكد النتائج التجريبية على مجموعتي بيانات nuScenes وWaymo الأداء المتميز لـ FocalFormer3D. ويؤدي هذا التفوق إلى أداء قوي في كل من الكشف والتتبع، سواء في البيئات القائمة على ليزر (LiDAR) أو في البيئات متعددة الوسائط. وبشكل لافت، حقق FocalFormer3D تقييمًا قدره 70.5 mAP و73.9 NDS في معيار الكشف على nuScenes، بينما أظهر معيار التتبع على nuScenes تقييمًا قدره 72.1 AMOTA، محتلًا بذلك المركز الأول في قائمة التصنيف على nuScenes باستخدام تقنية ليزر. يمكن الوصول إلى الشفرة المصدرية الخاصة بنا من خلال الرابط: \url{https://github.com/NVlabs/FocalFormer3D}.