GLENet: تعزيز كاشفات الكائنات ثلاثية الأبعاد من خلال تقدير عدم اليقين في التسمية التوليدية

الغموض المتأصّل في التسميات الحقيقية (ground-truth) للصناديق المحددة ثلاثية الأبعاد، الناتج عن الظلال المُعَرّضة، أو فقدان الإشارة، أو الأخطاء اليدوية في التسمية، يمكن أن يُربك متّجهات الكائنات ثلاثية الأبعاد العميقة أثناء التدريب، مما يؤدي إلى تدهور دقة الكشف. ومع ذلك، تتجاهل الطرق الحالية إلى حدٍ ما هذه المشكلات، وتعامل التسميات على أنها محددة بالكامل. في هذا البحث، نُصِف مشكلة عدم اليقين في التسميات من خلال تنوع الصناديق المحددة الممكنة بشكل معقول للكائنات. ثم نُقدّم GLENet، وهي إطار عمل توليدي مستوحى من مُشفّرات التوليد العشوائي الشرطي (conditional variational autoencoders)، لتمثيل العلاقة من نوع واحد إلى العديد بين كائن ثلاثي الأبعاد نموذجي وصناديقه المحددة الحقيقية المحتملة باستخدام متغيرات مخفية. يُعدّ عدم اليقين في التسميات الناتج عن GLENet وحدة قابلة للتركيب بسهولة، ويمكن دمجها بسلاسة في متّجهات الكائنات ثلاثية الأبعاد العميقة الحالية لبناء متّجهات احتمالية، ودعم التدريب على عدم اليقين في تحديد الموقع. بالإضافة إلى ذلك، نقترح بنية مُحسّنة للجودة تأخذ بعين الاعتبار عدم اليقين في المتّجهات الاحتمالية، لتوجيه تدريب فرع IoU باستخدام عدم اليقين في تحديد الموقع المُتوقع. ونُدمج الأساليب المقترحة في مختلف المتّجهات ثلاثية الأبعاد الشهيرة، ونُظهر تحسينات كبيرة ومستقرة في الأداء على كلا مجموعتي بيانات التقييم KITTI وWaymo. وبشكل خاص، تتفوّق GLENet-VR المقترحة على جميع الطرق المنشورة القائمة على LiDAR بفارق كبير، وتُحقّق المركز الأول بين الطرق الأحادية النمطية على مجموعة اختبار KITTI الصعبة. تم إتاحة الشفرة المصدرية والنماذج المُدرّبة مسبقًا بشكل عام على الرابط: \url{https://github.com/Eaphan/GLENet}.