شبكة اندماج متعددة الوسائط تعتمد على الانتباه لإكمال المشهد الدلالي

تقدم هذه الورقة شبكة تلافيف ثلاثية الأبعاد من نوع end-to-end تُسمى شبكة الدمج متعددة الوسائط القائمة على الانتباه (AMFNet) للمهمة الخاصة بإكمال المشهد الشكلي (SSC)، والتي تهدف إلى استنتاج امتلاك العناصر (occupancy) والعلامات الشكلية (semantic labels) لمشهد ثلاثي الأبعاد مكاني (volumetric) من صور RGB-D ذات منظور واحد. مقارنةً بالطرق السابقة التي تعتمد فقط على السمات الشكلية المستخلصة من صور RGB-D، تتعلم الشبكة المقترحة AMFNet إكمال المشهد ثلاثي الأبعاد بشكل فعّال والتقسيم الشكلي في آنٍ واحد، وذلك من خلال الاستفادة من الخبرة المكتسبة في استنتاج التقسيم الشكلي ثنائي الأبعاد من صور RGB-D، بالإضافة إلى إشارات العمق الموثوقة في الاتجاه المكاني. يتم تحقيق ذلك من خلال استخدام بنية دمج متعددة الوسائط مستمدة من التقسيم الشكلي ثنائي الأبعاد، وشبكة إكمال شكلي ثلاثي الأبعاد مدعومة بكتل انتباه متبقية (residual attention blocks). وقد تم التحقق من أداء طريقة العمل على كل من مجموعة بيانات SUNCG-RGBD الاصطناعية ومجموعة بيانات NYUv2 الحقيقية، وأظهرت النتائج أن الطريقة المقترحة حققت مكاسب قدرها 2.5% و2.6% على التوالي في مجموعة بيانات SUNCG-RGBD الاصطناعية ومجموعة بيانات NYUv2 الحقيقية مقارنةً بأفضل طريقة حالية في المجال.