HyperAIHyperAI
منذ 11 أيام

Occlusion-Net: التعرف على المواقع المُحجبَة ثنائية وثلاثية الأبعاد باستخدام الشبكات الرسومية

{ Srinivasa G. Narasimhan, Minh Vo, N. Dinesh Reddy}
Occlusion-Net: التعرف على المواقع المُحجبَة ثنائية وثلاثية الأبعاد باستخدام الشبكات الرسومية
الملخص

نقدم "Occlusion-Net"، إطارًا لتنبؤ بمواقع النقاط المفتاحية المُغطاة ثنائيَّة وثلاثية الأبعاد للأشياء، بطريقة مُتعددة التلقائية إلى حد كبير. نستخدم كمدخل كاشفًا جاهزًا (مثل MaskRCNN) تم تدريبه فقط على تسميات النقاط المفتاحية المرئية، وهي الوحيدة من أنواع الإشراف المستخدمة في هذه الدراسة. ثم يُستخدم شبكة مشفرة للرسم البياني (graph encoder) لتصنيف الحواف غير المرئية بشكل صريح، بينما تقوم شبكة فك التشفير للرسم البياني (graph decoder) بتصحيح مواقع النقاط المفتاحية المغطاة بناءً على النتائج الأولية من الكاشف. وتشكل خسارة التنسور الثلاثي (trifocal tensor loss) العمود الفقري لهذه الدراسة، حيث توفر إشرافًا ذاتيًا غير مباشر لمواقع النقاط المفتاحية المغطاة التي تكون مرئية في وجهات نظر أخرى للجسم. ثم تُمرّر النقاط الثنائية الأبعاد عبر شبكة رسم بياني ثلاثية الأبعاد، والتي تُقدّر الشكل ثلاثي الأبعاد ووضع الكاميرا باستخدام خسارة إعادة التصوير ذاتية التدريب. عند التشغيل، يتمكن نهجنا بنجاح من تحديد مواقع النقاط المفتاحية في رؤية واحدة تحت مجموعة متنوعة من ظروف الإغلاق الشديد. ونُظهر ونُقيّم نهجنا على بيانات محاكاة CAD، وكذلك على مجموعة كبيرة من الصور التي تُظهر المركبات في العديد من التقاطعات المزدحمة بالمدن. كمعلومة جانبية مثيرة للاهتمام، نقارن دقة التسميات البشرية للنقاط المفتاحية غير المرئية مع تلك الناتجة عن خسارة التنسور الثلاثي الهندسي.

Occlusion-Net: التعرف على المواقع المُحجبَة ثنائية وثلاثية الأبعاد باستخدام الشبكات الرسومية | أحدث الأوراق البحثية | HyperAI