HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة اندماج متعددة الوسائط تعتمد على الانتباه لإكمال المشهد الدلالي

Siqi Li Changqing Zou Yipeng Li Xibin Zhao Yue Gao

الملخص

تقدم هذه الورقة شبكة تلافيف ثلاثية الأبعاد من نوع end-to-end تُسمى شبكة الدمج متعددة الوسائط القائمة على الانتباه (AMFNet) للمهمة الخاصة بإكمال المشهد الشكلي (SSC)، والتي تهدف إلى استنتاج امتلاك العناصر (occupancy) والعلامات الشكلية (semantic labels) لمشهد ثلاثي الأبعاد مكاني (volumetric) من صور RGB-D ذات منظور واحد. مقارنةً بالطرق السابقة التي تعتمد فقط على السمات الشكلية المستخلصة من صور RGB-D، تتعلم الشبكة المقترحة AMFNet إكمال المشهد ثلاثي الأبعاد بشكل فعّال والتقسيم الشكلي في آنٍ واحد، وذلك من خلال الاستفادة من الخبرة المكتسبة في استنتاج التقسيم الشكلي ثنائي الأبعاد من صور RGB-D، بالإضافة إلى إشارات العمق الموثوقة في الاتجاه المكاني. يتم تحقيق ذلك من خلال استخدام بنية دمج متعددة الوسائط مستمدة من التقسيم الشكلي ثنائي الأبعاد، وشبكة إكمال شكلي ثلاثي الأبعاد مدعومة بكتل انتباه متبقية (residual attention blocks). وقد تم التحقق من أداء طريقة العمل على كل من مجموعة بيانات SUNCG-RGBD الاصطناعية ومجموعة بيانات NYUv2 الحقيقية، وأظهرت النتائج أن الطريقة المقترحة حققت مكاسب قدرها 2.5% و2.6% على التوالي في مجموعة بيانات SUNCG-RGBD الاصطناعية ومجموعة بيانات NYUv2 الحقيقية مقارنةً بأفضل طريقة حالية في المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp