HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة حجم العرض لإكمال المشهد الدلالي من صورة عمق واحدة

Yu-Xiao Guo; Xin Tong

الملخص

نقدم شبكة عصبية تقنية التعلم العميق ذات الحجم البصري (VVNet) لاستنتاج وجود العناصر وتصنيفها الدلالي في مشهد ثلاثي الأبعاد من صورة عمق واحدة. تتكون VVNet من تجميع شبكة عصبية ثنائية الأبعاد للرؤية (2D view CNN) وشبكة عصبية ثلاثية الأبعاد للحجم (3D volume CNN) مع طبقة إسقاط قابلة للمفاضلة. عند تقديم صورة RGBD واحدة، يُستخرج طريقة عملنا الخصائص الهندسية التفصيلية من صورة العمق المدخلة باستخدام شبكة الرؤية ثنائية الأبعاد، ثم يتم إسقاط هذه الخصائص إلى حجم ثلاثي الأبعاد وفقًا لخريطة العمق المدخلة عبر طبقة الإسقاط. بعد ذلك، نتعلم معلومات السياق الثلاثي الأبعاد للمشهد باستخدام شبكة الحجم ثلاثية الأبعاد لحساب وجود الحجم الناتج والتصنيفات الدلالية. بفضل الجمع بين التمثيلات ثنائية وثلاثية الأبعاد، تقلل VVNet بشكل فعال من تكلفة الحسابات، وتتيح استخراج الخصائص من مدخلات عالية الدقة متعددة القنوات، مما يؤدي إلى تحسين كبير في دقة النتائج. نتحقق من فعالية طريقتنا وكفاءتها على كلٍ من مجموعة بيانات SUNCG الاصطناعية ومجموعة بيانات NYU الحقيقية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة حجم العرض لإكمال المشهد الدلالي من صورة عمق واحدة | مستندات | HyperAI