تقسيم المشهد باستخدام شبكة انتباه مزدوجة تعتمد على العلاقة
في هذه المقالة، نقترح شبكة انتباه مُدركة للعلاقة الثنائية (DRANet) لمعالجة مهمة تقسيم المشهد. إن الاستفادة الفعّالة من السياق أمر بالغ الأهمية للتعرف على المستويات الفردية للبكسل. ولحل هذه المشكلة، نُدرك بشكل تكيفي معلومات السياق باستخدام آلية انتباه مُدركة للعلاقة. وبخاصة، نُضيف نوعين من وحدات الانتباه على قمة الشبكة التلافيفية الكاملة الموسعة (FCN)، حيث تُنمذج الاعتماديات السياقية في الأبعاد الفضائية والقناة على التوالي. وفي وحدات الانتباه هذه، نستخدم آلية انتباه ذاتي لتمثيل الروابط الدلالية بين أي بكسلين أو قناتين. ويمكن لكل بكسل أو قناة أن تُجمّع السياق بشكل تكيفي من جميع البكسلات أو القنوات وفقًا لعلاقتها الترابطية. ولتقليل التكلفة العالية في الحساب والذاكرة الناتجة عن عملية حساب الترابطات الثنائية المذكورة أعلاه، نصمم بعدها نوعين من وحدات الانتباه المدمجة. وفي وحدات الانتباه المدمجة، يُبنى كل بكسل أو قناة ارتباطًا فقط مع عدد محدود من مراكز جمع، ويحصل على تجميع السياق المقابل عبر هذه المراكز. في الوقت نفسه، نُضيف مُفككًا مُمرّرًا عبر المستويات (cross-level gating decoder) لتعزيز اختياري للتفاصيل المكانية التي تُحسّن أداء الشبكة. ونُجري تجارب واسعة لتأكيد فعالية شبكتنا، ونحقق أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art) في تقسيم المشهد على أربع مجموعات بيانات صعبة، وهي: Cityscapes، ADE20K، PASCAL Context، وCOCO Stuff. وبخاصة، نحقق نسبة متوسطة لـ IoU تبلغ 82.9% على مجموعة اختبار Cityscapes دون استخدام بيانات تسمية خشنة إضافية.