نموذج اندماج مبني على الانتباه متعدد الوسائط لتقسيم الدلالة للصور الملونة-العمق

يُعتبر فهم المشهد ثلاثي الأبعاد أحد المتطلبات الأساسية في تطبيقات الرؤية الحاسوبية والروبوتات. ومن بين المهام عالية المستوى في فهم المشهد ثلاثي الأبعاد، يُعد تقسيم المعنى (Semantic Segmentation) للصور الملونة (RGB) مع الصور العميقة (Depth) من المهام البارزة. وبفضل توفر كاميرات RGB-D، أصبح من المرغوب فيه تحسين دقة عملية فهم المشهد من خلال استغلال ميزات العمق إلى جانب ميزات المظهر. وبما أن الصور العميقة لا تعتمد على الإضاءة، فإنها تساهم في تحسين جودة التسمية المعنوية بالتزامن مع الصور الملونة. وعند النظر إلى الخصائص المشتركة والخاصة لكلا النوعين من البيانات، يُعزز ذلك أداء تقسيم المعنى. ومن المشكلات الرئيسية في تقسيم المعنى لصور RGB-Depth، كيفية دمج أو توحيد هذين النوعين من البيانات بحيث تُستغل المزايا الكاملة لكل منهما، مع الحفاظ على الكفاءة الحسابية. في الآونة الأخيرة، توصلت الطرق التي تعتمد على الشبكات العصبية التلافيفية العميقة إلى نتائج متفوقة على مستوى الحد الأقصى (State-of-the-art) باستخدام استراتيجيات دمج مبكرة (Early Fusion)، ومبكرة جدًا (Late Fusion)، ووسيطة (Middle Fusion). في هذا البحث، تم اقتراح نموذج فعّال من نوع المُشفّر-المُفكّك (Encoder-Decoder) يحتوي على وحدة دمج تعتمد على الانتباه، بهدف دمج التأثيرات التبادلية بين خرائط الميزات لكلا النوعين من البيانات. وتستخرج هذه الوحدة بشكل صريح الترابطات التفاعلية بين خرائط الميزات المُدمجة لكلا النوعين، بهدف استخلاص خرائط ميزات أكثر قوة من الصور RGB-Depth. وتوصل النتائج التجريبية الواسعة على ثلاث مجموعات بيانات رئيسية صعبة، وهي NYU-V2 وSUN RGB-D وStanford 2D-3D-Semantic، إلى أن الشبكة المقترحة تتفوق على النماذج المتفوقة على مستوى الحد الأقصى من حيث التكلفة الحسابية وحجم النموذج. كما تُظهر النتائج التجريبية فعالية النموذج الخفيف الوزن القائم على الانتباه في ما يتعلق بالدقة.