التشويه النادر الافتراضي للكشف عن الأشياء ثلاثية الأبعاد متعددة الوسائط

في الآونة الأخيرة، حظيت تقنيات الكشف عن الأجسام ثلاثية الأبعاد المستندة إلى النقاط الافتراضية/الزائفة التي تدمج الصور ثنائية الأبعاد RGB والبيانات ثلاثية الأبعاد من أجهزة LiDAR بفضل إكمال العمق باهتمام كبير. ومع ذلك، فإن النقاط الافتراضية المولدة من الصورة تكون كثيفة للغاية، مما يُدخل كمية كبيرة من الحسابات الزائدة أثناء عملية الكشف. بالإضافة إلى ذلك، فإن الضوضاء الناجمة عن الإكمال غير الدقيق للعمق تقلل بشكل كبير من دقة الكشف. في هذا البحث، نقترح هيكلًا سريعًا ومعتمدًا يُطلق عليه اسم VirConvNet، مستندًا إلى عامل جديد يُسمى VirConv (Virtual Sparse Convolution) للكشف عن الأجسام ثلاثية الأبعاد باستخدام النقاط الافتراضية. يتكون VirConv من تصميمين أساسيين: (1) StVD (Stochastic Voxel Discard) و(2) NRConv (Noise-Resistant Submanifold Convolution). يعمل StVD على تخفيف مشكلة الحسابات عبر التخلص من كميات كبيرة من الفوكسلات المجاورة الزائدة. أما NRConv فيتعامل مع مشكلة الضوضاء عبر ترميز خصائص الفوكسل في كلٍّ من مساحة الصورة ثنائية الأبعاد ومساحة البيانات ثلاثية الأبعاد من LiDAR. بدمج VirConv، نطور أولًا خط أنابيب فعال يُسمى VirConv-L يستند إلى تصميم الاندماج المبكر. ثم نبني خط أنابيب عالي الدقة يُسمى VirConv-T يستند إلى مخطط تحسين متغير. وأخيرًا، نطور خط أنابيب شبه مشرف عليه يُسمى VirConv-S يستند إلى إطار العمل القائم على التسميات الزائفة. على لوحة تصنيف اختبار الكشف عن السيارات ثلاثية الأبعاد في KITTI، حقق نظامنا VirConv-L نسبة AP قدرها 85% مع سرعة تشغيل سريعة تبلغ 56 ميلي ثانية. بينما حقق نظامانا VirConv-T وVirConv-S دقة عالية بلغت 86.3% و87.2% AP على التوالي، ويحتلان حاليًا المركز الثاني والمركز الأول على التوالي. الرمز البرمجي متاح على الرابط https://github.com/hailanyi/VirConv.