تحليل المشهد من خلال نموذج تصنيف متكامل وتنظيم مبني على التباين

تحليل المشهد هو مهمة صعبة في رؤية الحاسوب، ويمكن صياغتها كمشكلة تصنيف على مستوى كل بكسل. تستخدم الطرق القائمة على التعلم العميق عادةً فئة تصنيف واحدة عامة للتمييز بين جميع فئات الكائنات. ومع ذلك، فإن الفئة التصنيفية العامة تُخطئ بسهولة عند التعامل مع فئات مربكة تتشابه في المظهر أو المعنى. في هذه الورقة، نقترح نموذج تصنيف متكامل وعامل تنظيم مبني على التباين لتحقيق تصنيفات أكثر دقة. من ناحية، يحتوي نموذج التصنيف المتكامل على عدة فئات تصنيفية، لا تقتصر على الفئة العامة فحسب، بل تشمل أيضًا فئة تحسينية تمكّن من التمييز بين الفئات المربكة. ومن ناحية أخرى، يُميّز عامل التنظيم المبني على التباين بين درجات جميع الفئات قدر الإمكان لتقليل الأخطاء في التصنيف. وبشكل محدد، يشتمل نموذج التصنيف المتكامل على ثلاث خطوات: الأولى هي استخلاص ميزات كل بكسل. ثم، استنادًا إلى هذه الميزات، تأتي المرحلة الثانية وهي تصنيف كل بكسل عبر جميع الفئات لإنتاج نتيجة تصنيف أولية. وفي المرحلة الثالثة، نستخدم فئة تصنيف تحسينية لتحسين نتيجة التصنيف، مع التركيز على التمييز بين الفئات ذات الدرجات الأولية العالية. ويُستخدم خسارة متكاملة تضم عامل التنظيم المبني على التباين لتدريب النموذج. وقد أظهرت تجارب واسعة على ثلاث مجموعات بيانات شائعة لتحليل المشهد فعالية الطريقة المقترحة.