MonoDGP: الكشف عن الأشياء ثلاثية الأبعاد باستخدام الاستعلامات المنفصلة وأولويات الخطأ الهندسي

تم استخدام الإسقاط المنظوري بشكل واسع في طرق الكشف عن الأشياء ثلاثية الأبعاد باستخدام كاميرا واحدة. يُدخل هذا الإسقاط مقدمات هندسية من صناديق الحدود ثنائية الأبعاد وأبعاد الأشياء ثلاثية الأبعاد لخفض عدم اليقين في تقدير العمق. ومع ذلك، بسبب أخطاء العمق الناشئة من سطح الجسم المرئي، غالبًا ما تفشل ارتفاع صندوق الحدود في تمثيل الارتفاع المركزي الفعلي المُسْقَط، مما يقلل من فعالية العمق الهندسي. التنبؤ المباشر بالارتفاع المسقط يؤدي حتماً إلى فقدان مقدمات ثنائية الأبعاد، بينما لا تستغل التنبؤات المتعددة للعمق الفروع المعقدة بشكل كامل. يقدم هذا البحث طريقة كشف عن الأجسام ثلاثية الأبعاد باستخدام كاميرا واحدة تعتمد على الشبكات العصبية المتحولة (Transformer) وتُسمى MonoDGP، والتي تتبنى أخطاء هندسية ثابتة بغض النظر عن الزاوية البصرية لتعديل معادلة الإسقاط. نحاول أيضًا مناقشة وشرح الآليات والفعالية خلف أخطاء الهندسة بشكل منهجي، والتي تعمل كبديل بسيط ولكن فعال للتنبؤ المتعدد بالعمق. بالإضافة إلى ذلك، تقوم MonoDGP بتقسيم مفكك الرموز الموجه بالعمق وبناء مفكك رموز ثنائي الأبعاد يعتمد فقط على الخصائص البصرية، مما يوفر مقدمات ثنائية الأبعاد ويبدأ الاستعلامات الأولية للأجسام دون تأثير الكشف ثلاثي الأبعاد. لتحسين وضبط الرموز الدخولية لمفكك الرموز المتحول بشكل أكبر، قدمنا أيضًا رأس تقسيم المنطقة (Region Segment Head - RSH) الذي يولد خصائص ودمج تقسيمات محسنة. تظهر طريقتنا باستخدام كاميرا واحدة أفضل أداء حاليًا على مقاييس KITTI دون بيانات إضافية. يمكن الوصول إلى الكود عبر الرابط:https://github.com/PuFanqi23/MonoDGP.