SPAN: التوافق المكاني-الإسقاطي للكشف عن الكائنات ثلاثية الأبعاد من منظور واحد
Yifan Wang Yian Zhao Fanqi Pu Xiaochen Yang Yang Tang Xi Chen Wenming Yang

الملخص
تُعدّ الكاشفات الثلاثية الأبعاد ذات العدسة الواحدة الحالية مُتَّسِقة في تَسْمِيَةِ التَّسْمِيَةِ غير الخطية المُلَمَّةِ لصناديق الحدود الثلاثية الأبعاد من خلال نموذج التنبؤ المُنَفَّكِ، الذي يعتمد على فروع متعددة لتقدير المركز الهندسي، والعمق، والأبعاد، وزاوية الدوران بشكل منفصل. وعلى الرغم من أن هذه الاستراتيجية المُنَفَّكَة تُبَسِّط عملية التعلُّم، فإنها تتجاهل بشكل جوهري القيود التعاونية الهندسية بين السمات المختلفة، ما يؤدي إلى نقص في مُسبَقِ الاتساق الهندسي، وبالتالي يُنتج أداءً غير مُثلى. ولحل هذه المشكلة، نُقدِّم طريقةً جديدة تُسمَّى "مُوازَنة التَّنْسِيق المكاني" (SPAN) تتألَّف من مكوَّنين رئيسيين: (أ) مُوازَنة النقاط المكانية، التي تفرض قيدًا مكانيًّا عامًّا صريحًا بين صندوق الحدود الثلاثي المُتَوقَّع وصندوق الحدود الثلاثي الحقيقي، مما يُصحِّح الانزياح المكاني الناتج عن التنبؤ المنفصل بالسمات. (ب) مُوازَنة التَّنْسِيق الثلاثي-الثنائي، التي تضمن أن يكون الصندوق الثلاثي المُشَرَّط مُتَمَاسًّا بشكل وثيق داخل صندوق الكشف الثنائي المُطابق على مستوى الصورة، مما يُقلِّل من مشكلة التَّنْسِيق الخاطئ في التَّشْرِيط التي تُهمل في الدراسات السابقة. ولضمان استقرار التدريب، نُضيف أيضًا استراتيجية تعلُّم المهام الهرمية التي تُدمج تدريجيًّا مُوازَنة التَّنْسِيق المكاني والثنائي مع تحسُّن تنبؤات السمات الثلاثية الأبعاد، مما يمنع انتشار الأخطاء في المراحل المبكرة عبر السمات المختلفة. تُظهر التجارب الواسعة أن الطريقة المقترحة يمكن دمجها بسهولة في أي كاشف ثلاثي الأبعاد ذات عدسة واحدة مُطوَّر مسبقًا، وتحقق تحسينات كبيرة في الأداء.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.