إكمال المشهد ثلاثي الأبعاد المعزز بالبيانات باستخدام أولويات التجزئة ثنائية الأبعاد

إن إكمال المشهد الدلالي (SSC) هو مهمة صعبة في مجال الرؤية الحاسوبية، ولها تطبيقات عملية عديدة، بدءًا من الروبوتات ووصولًا إلى الحوسبة المساعدة. يهدف هذا المهمة إلى استنتاج البنية ثلاثية الأبعاد في مجال رؤية المشهد، إلى جانب تسمية الدلاليات (السمات) للبكسلات (البوكسلات ثلاثية الأبعاد) بما في ذلك المناطق المُحَجَّبة. في هذا العمل، نقدّم نموذج SPAwN، وهو شبكة عميقة ثلاثية الأبعاد خفيفة الوزن متعددة الوسائط، تدمج بسلاسة بين البيانات الهيكلية المستمدة من مكون العمق في الصور RGB-D، والمعطيات الدلالية المستمدة من شبكة تجزئة ثنائية الأبعاد متعددة الوسائط. وتشكل النقص في مجموعات البيانات ثلاثية الأبعاد الحقيقية المُعلَّمة بالكامل، والتي تكون كبيرة بما يكفي لتدريب الشبكات العميقة ثلاثية الأبعاد الحالية التي تستهلك كميات كبيرة من البيانات، أحد التحديات الأساسية في هذا المجال. في المهام ثنائية الأبعاد في الرؤية الحاسوبية، تم اقتراح العديد من استراتيجيات تكبير البيانات (data augmentation) لتحسين قدرة الشبكات العميقة على التعميم. ومع ذلك، لا يمكن تطبيق هذه النُّهج مباشرة على مدخلات ومخرجات الحلول الثلاثية الأبعاد لمشكلة إكمال المشهد الدلالي (SSC). في هذه الورقة، نُقدّم استخدام استراتيجية تكبير بيانات ثلاثية الأبعاد يمكن تطبيقها على الشبكات متعددة الوسائط الخاصة بمشكلة SSC. ونُحقّق تأثير مساهماتنا من خلال دراسة تحليلية شاملة وقابلة للتكرار. ويُظهر الحل المقترح تفوقًا مستمرًا على الأعمال السابقة، مع مستوى معادل من التعقيد.