الانتباه الهرمي متعدد المقاييس للتقسيم الدلالي

يُستخدم الاستدلال متعدد المقاييس عادةً لتحسين نتائج التصنيف الدلالي. حيث تُمرَّر صور بمقاييس متعددة عبر الشبكة، ثم تُدمج النتائج باستخدام المتوسط أو التجميع الأقصى (max pooling). في هذه الدراسة، نقدّم نهجًا مبنيًا على الانتباه لدمج التنبؤات متعددة المقاييس. ونُظهر أن التنبؤات عند مقاييس معينة تكون أكثر فعالية في معالجة أنماط معينة من الأخطاء، وأن الشبكة تتعلم التفضيل لهذه المقاييس في مثل هذه الحالات لتحسين دقة التنبؤات. وتميّز آلية الانتباه لدينا بالهيكلية الهرمية، مما يُمكنها من كونها أكثر كفاءة بحوالي 4 أضعاف من حيث استهلاك الذاكرة أثناء التدريب مقارنةً بالنهوج الحديثة الأخرى. وبالإضافة إلى تسريع عملية التدريب، يُتيح هذا التصميم لنا التدريب باستخدام أحجام قطع أكبر، مما يؤدي إلى دقة نموذج أعلى. ونُظهر نتائج طريقة عملنا على مجموعتي بيانات: Cityscapes وMapillary Vistas. وبالنسبة لـ Cityscapes التي تحتوي على عدد كبير من الصور ذات التسميات الضعيفة، نستفيد أيضًا من آلية التسمية التلقائية (auto-labelling) لتحسين التعميم. وباستخدام نهجنا، نحقق نتائجًا جديدة في مستوى الحالة الراهنة (state-of-the-art) على كل من Mapillary (61.1 IOU على المجموعة المُختبرة) وCityscapes (85.1 IOU على المجموعة الاختبارية).