تدفق الدلالة لتحليل المشهد بسرعة ودقة

في هذه الورقة، نركّز على تصميم طريقة فعّالة لتحليل المشهد بسرعة ودقة. إحدى الممارسات الشائعة لتحسين الأداء هي الحصول على خرائط ميزات ذات دقة عالية تمثل المعاني بقوة. وتكمن الاستراتيجيتان الشائعتان في هذا الصدد، وهما التلافيف المُتَفَرِّعة (atrous convolutions) ودمج الهرم المميزات (feature pyramid fusion)، في كونهما إما مكلّفتين من حيث الحساب أو غير فعّالتين. مستوحى من تدفق البصر (Optical Flow) المستخدم لمحاذاة الحركة بين الإطارات المجاورة في الفيديو، نقترح وحدة محاذاة التدفق (Flow Alignment Module - FAM) لتعلُّم تدفق المعاني بين خرائط الميزات للمستويات المجاورة، ونقل ميزات المستوى العالي إلى خرائط الميزات ذات الدقة العالية بكفاءة وفعالية. علاوةً على ذلك، عند دمج وحدتنا في هيكل معياري للهرم المميزات، تُظهر أداءً متفوّقًا مقارنةً بطرق أخرى في الوقت الحقيقي، حتى عند استخدام شبكات أساسية خفيفة الوزن مثل ResNet-18. أجرينا تجارب واسعة على عدة مجموعات بيانات صعبة، تشمل Cityscapes وPASCAL Context وADE20K وCamVid. وبشكل خاص، أصبحت شبكتنا أول شبكة تحقق 80.4% من متوسط دقة التداخل (mIoU) على مجموعة Cityscapes بسرعة إطار تصل إلى 26 إطارًا في الثانية. يمكن الوصول إلى الشفرة المصدرية من خلال الرابط: \url{https://github.com/lxtGH/SFSegNets}.