HyperAIHyperAI
منذ 2 أشهر

شبكة حجم العرض لإكمال المشهد الدلالي من صورة عمق واحدة

Yu-Xiao Guo; Xin Tong
شبكة حجم العرض لإكمال المشهد الدلالي من صورة عمق واحدة
الملخص

نقدم شبكة عصبية تقنية التعلم العميق ذات الحجم البصري (VVNet) لاستنتاج وجود العناصر وتصنيفها الدلالي في مشهد ثلاثي الأبعاد من صورة عمق واحدة. تتكون VVNet من تجميع شبكة عصبية ثنائية الأبعاد للرؤية (2D view CNN) وشبكة عصبية ثلاثية الأبعاد للحجم (3D volume CNN) مع طبقة إسقاط قابلة للمفاضلة. عند تقديم صورة RGBD واحدة، يُستخرج طريقة عملنا الخصائص الهندسية التفصيلية من صورة العمق المدخلة باستخدام شبكة الرؤية ثنائية الأبعاد، ثم يتم إسقاط هذه الخصائص إلى حجم ثلاثي الأبعاد وفقًا لخريطة العمق المدخلة عبر طبقة الإسقاط. بعد ذلك، نتعلم معلومات السياق الثلاثي الأبعاد للمشهد باستخدام شبكة الحجم ثلاثية الأبعاد لحساب وجود الحجم الناتج والتصنيفات الدلالية. بفضل الجمع بين التمثيلات ثنائية وثلاثية الأبعاد، تقلل VVNet بشكل فعال من تكلفة الحسابات، وتتيح استخراج الخصائص من مدخلات عالية الدقة متعددة القنوات، مما يؤدي إلى تحسين كبير في دقة النتائج. نتحقق من فعالية طريقتنا وكفاءتها على كلٍ من مجموعة بيانات SUNCG الاصطناعية ومجموعة بيانات NYU الحقيقية.

شبكة حجم العرض لإكمال المشهد الدلالي من صورة عمق واحدة | أحدث الأوراق البحثية | HyperAI