S$^2$-FPN: شبكة هرمية لاستخلاص الميزات تُوجَّه بانتباه الشريط القابل للتوسع للفصل الدلالي الزمني الحقيقي

تستخدم الطرق الحديثة عالية الأداء لتقسيم المعاني (semantic segmentation) نواة قوية (heavy backbone) وانعكاس مُمدد (dilated convolution) لاستخراج الميزات ذات الصلة. وعلى الرغم من أن استخلاص الميزات التي تحتوي على معلومات سياقية ودلالية هو أمر بالغ الأهمية للمهام المتعلقة بالتقسيم، إلا أنه يُحدث أثقالًا في الذاكرة وتكاليف حسابية عالية، مما يُشكل عائقًا أمام التطبيقات الزمنية الحقيقية. تقدم هذه الورقة نموذجًا جديدًا يحقق توازنًا بين الدقة والسرعة في تقسيم مشاهد الطرق في الزمن الحقيقي. بشكل خاص، نُقدِّم نموذجًا خفيفًا يُسمى شبكة هرمية لتقديم الميزات الموجهة بانتباه الشريط المُدرك للقياس (Scale-aware Strip Attention Guided Feature Pyramid Network)، أو اختصارًا S$^2$-FPN. يتكوّن شبكتنا من ثلاث وحدات رئيسية: وحدة دمج الهرم الانتباهي (Attention Pyramid Fusion - APF)، ووحدة الانتباه الشريطي المُدرك للقياس (Scale-aware Strip Attention Module - SSAM)، ووحدة تكبير الميزات العالمية (Global Feature Upsample - GFU). تستخدم وحدة APF آليات الانتباه لتعلم ميزات متعددة المقاييس تميّزية، وتساعد في تقليل الفجوة الدلالية بين المستويات المختلفة. كما تستخدم APF انتباهًا مُدركًا للقياس لترميز السياق العالمي من خلال عملية قص عمودية، وتمثيل الاعتماديات طويلة المدى، مما يساعد في ربط البكسلات ذات العلامات الدلالية المشابهة. بالإضافة إلى ذلك، تستخدم APF وحدة إعادة توزيع القنوات (Channel-wise Reweighting Block - CRB) لتعزيز الميزات القنوية. في النهاية، يستخدم مُفكك (decoder) S$^2$-FPN وحدة GFU، والتي تُستخدم لدمج الميزات المستمدة من APF مع تلك المستمدة من المُشفر (encoder). أُجريت تجارب واسعة على بحثين صعبين لتقسيم المعاني، وقد أظهرت النتائج أن النهج المُقترح يحقق توازنًا أفضل بين الدقة والسرعة بتنوع إعدادات النموذج. وقد حقق النماذج المقترحة نتائج بلغت 76.2% mIoU / 87.3FPS، و77.4% mIoU / 67FPS، و77.8% mIoU / 30.5FPS على مجموعة بيانات Cityscapes، و69.6% mIoU، و71.0% mIoU، و74.2% mIoU على مجموعة بيانات CamVid. سيتم إتاحة الكود الخاص بهذه الدراسة عبر الرابط: \url{https://github.com/mohamedac29/S2-FPN}