التحليل السريع والدقيق للمناظر باستخدام شبكات التوافق الثنائي الاتجاه

في هذه الورقة، نقترح طريقة فعّالة لتحليل المشهد بسرعة ودقة تُسمى شبكة التوافق ثنائي الاتجاه (BiAlignNet). في السابق، اعتمد أحد الأعمال البارزة، BiSeNet~\cite{bisenet}، على طريقتين مختلفتين (مسار السياق ومسار الفضاء) لتحقيق تعلم متوازن للسياق والتفاصيل على التوالي. ومع ذلك، لم تُستكشف العلاقة بين الطريقتين بشكل كافٍ. نحن نرى أن الطريقتين يمكن أن تستفيدا من بعضهما البعض بطريقة مكملة. مستلهمين من هذا المفهوم، نقترح شبكة جديدة تقوم بتوافق معلومات الطريقتين مع بعضهما البعض من خلال حقل تدفق يتم تعلمه. ولتجنب الضوضاء والفجوات السياقية، نُقدّم وحدة توافق التدفق ذات البوابة (Gated Flow Alignment Module) لتوافق الميزات بطريقة ثنائية الاتجاه. علاوةً على ذلك، ولتمكين مسار الفضاء من تعلّم معلومات أكثر تفصيلاً، نقدّم دالة خسارة تعتمد على الحواف (edge-guided hard pixel mining loss) لتعزيز عملية التعلم المُتوافقة. تحقق طريقةنا تقييمًا بنسبة 80.1% و78.5% لمؤشر mIoU على مجموعتي التحقق والاختبار من بيانات Cityscapes، مع أداء يبلغ 30 إطارًا في الثانية (FPS) باستخدام إدخالات بحلّ كامل. سيتم إتاحة الكود والنماذج عبر الرابط: \url{https://github.com/jojacola/BiAlignNet}.