HyperAIHyperAI
منذ 3 أشهر

شبكة اندماج متعددة الوسائط تعتمد على الانتباه لإكمال المشهد الدلالي

Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao, Yue Gao
شبكة اندماج متعددة الوسائط تعتمد على الانتباه لإكمال المشهد الدلالي
الملخص

تقدم هذه الورقة شبكة تلافيف ثلاثية الأبعاد من نوع end-to-end تُسمى شبكة الدمج متعددة الوسائط القائمة على الانتباه (AMFNet) للمهمة الخاصة بإكمال المشهد الشكلي (SSC)، والتي تهدف إلى استنتاج امتلاك العناصر (occupancy) والعلامات الشكلية (semantic labels) لمشهد ثلاثي الأبعاد مكاني (volumetric) من صور RGB-D ذات منظور واحد. مقارنةً بالطرق السابقة التي تعتمد فقط على السمات الشكلية المستخلصة من صور RGB-D، تتعلم الشبكة المقترحة AMFNet إكمال المشهد ثلاثي الأبعاد بشكل فعّال والتقسيم الشكلي في آنٍ واحد، وذلك من خلال الاستفادة من الخبرة المكتسبة في استنتاج التقسيم الشكلي ثنائي الأبعاد من صور RGB-D، بالإضافة إلى إشارات العمق الموثوقة في الاتجاه المكاني. يتم تحقيق ذلك من خلال استخدام بنية دمج متعددة الوسائط مستمدة من التقسيم الشكلي ثنائي الأبعاد، وشبكة إكمال شكلي ثلاثي الأبعاد مدعومة بكتل انتباه متبقية (residual attention blocks). وقد تم التحقق من أداء طريقة العمل على كل من مجموعة بيانات SUNCG-RGBD الاصطناعية ومجموعة بيانات NYUv2 الحقيقية، وأظهرت النتائج أن الطريقة المقترحة حققت مكاسب قدرها 2.5% و2.6% على التوالي في مجموعة بيانات SUNCG-RGBD الاصطناعية ومجموعة بيانات NYUv2 الحقيقية مقارنةً بأفضل طريقة حالية في المجال.