التعرف على المشهد الواعي بالمعنى

تمثّل التعرف على المشهد حاليًا أحد أكثر مجالات البحث تحديًا في رؤية الحاسوب. وقد يعود ذلك إلى الغموض بين الفئات: إذ قد تشترك صور عدة فئات من المشاهد في كائنات مماثلة، مما يؤدي إلى التباس بينها. ويتفاقم هذا التحدي عندما تكون صور فئة معينة من المشاهد مختلفة بشكل ملحوظ عن غيرها. وقد ساهمت الشبكات العصبية التلافيفية (CNNs) بشكل كبير في تحسين الأداء في التعرف على المشاهد، مع أن أداؤها لا يزال بعيدًا جدًا عن مستويات الأداء المحققة في مهام التعرف الأخرى (مثل التعرف على الكائنات أو الصور). في هذه الورقة، نُقدّم منهجية جديدة للتعرف على المشاهد تعتمد على شبكة عصبية تلافيفية متعددة الوسائط تعمل بشكل منتهي إلى منتهى (end-to-end)، وتدمج بين المعلومات البصرية والبيانات السياقية من خلال وحدة انتباه (attention module). وتُستخدم المعلومات السياقية على شكل تجزئة دلالية (semantic segmentation) لضبط الخصائص المستخلصة من الصورة بالألوان (RGB)، وذلك باستغلال المعلومات المُشفرة في التمثيل الدلالي: أي مجموعة الكائنات والمواد المميزة للمشهد، ومواقعها النسبية بالنسبة لبعضها. ويُعزز هذا الإجراء التصفية (gating) عملية تعلّم المحتوى المميز للمشهد، ويعزز التمييز بين المشاهد من خلال إعادة تركيز مجالات الاستقبال (receptive fields) للشبكة العصبية نحو هذه المحتويات المميزة. وأظهرت النتائج التجريبية على أربع مجموعات بيانات متاحة للعامة أن المنهجية المقترحة تتفوّق على جميع الطرق المتطورة الأخرى، مع تقليل كبير في عدد معاملات الشبكة. ويتوفر كل كود وبيانات استخدمت في هذه الدراسة على الرابط التالي: https://github.com/vpulab/Semantic-Aware-Scene-Recognition