HyperAIHyperAI
منذ 17 أيام

كشف الكائنات ثلاثية الأبعاد المستند إلى التكامل متعدد المستويات من الصور المفردة

{Zhenzhong Chen, Bin Xu}
كشف الكائنات ثلاثية الأبعاد المستند إلى التكامل متعدد المستويات من الصور المفردة
الملخص

في هذه الورقة، نقدم إطارًا قائمًا على التعلم العميق من الطرف إلى الطرف للكشف عن الأجسام ثلاثية الأبعاد من صورة مونوكولار واحدة. تم تقديم شبكة عصبية متعددة الطبقات باستخدام التحويلات التلافيفية العميقة للكشف المتزامن عن الأجسام في البعدين والثلاثة أبعاد. أولاً، تُولَّد اقتراحات مناطق ثنائية الأبعاد من خلال شبكة اقتراحات مناطق. ثم تُتعلم الميزات المشتركة داخل هذه الاقتراحات للتنبؤ باحتمال الفئة، وحدود الصندوق ثنائي الأبعاد، والاتجاه، والبعد، والموقع ثلاثي الأبعاد. نستخدم وحدة منفصلة لتقدير التباعد (Disparity) واستخلاص الميزات من السحابة النقطية الناتجة. وبالتالي، تُدمج الميزات المستمدة من الصورة الأصلية والسحابة النقطية على مستويات مختلفة لتحقيق تحليل دقيق للموقع ثلاثي الأبعاد. كما تُستخدم القيم المقدرة للتباين في ترميز الميزات من المنظور الأمامي لتعزيز الصورة المدخلة، وذلك بوصفه عملية دمج المدخلات (Input-Fusion). يمكن للخوارزمية المقترحة إخراج نتائج الكشف عن الأجسام ثنائية وثلاثية الأبعاد مباشرة وبشكل منهجي من الطرف إلى الطرف، باستخدام صورة RGB واحدة فقط كمدخل. وأظهرت النتائج التجريبية على معيار KITTI الصعب أن خوارزميتنا تتفوق بشكل ملحوظ على الطرق المتطورة الحالية باستخدام صور مونوكولار فقط.