شبكة سياق تكيفية لتحليل المشهد

تسعى الأعمال الحديثة لتحسين أداء تحليل المشهد من خلال استكشاف مستويات مختلفة من السياق، وغالبًا ما يتم تدريب شبكة تلافيفية مصممة بعناية للاستفادة من السياقات المفيدة عبر جميع البكسلات بشكل متساوٍ. ومع ذلك، في هذه الورقة، نلاحظ أن احتياجات السياق تختلف من بكسل إلى آخر أو من منطقة إلى أخرى ضمن كل صورة. استنادًا إلى هذه الملاحظة، نقترح شبكة سياق تكيفية (ACNet) لاستخلاص سياقات واعية بالبكسل من خلال دمج تنافسي بين السياق العالمي والسياق المحلي وفقًا للاحتياجات الفردية لكل بكسل. وبشكل خاص، عند إعطاء بكسل معين، يتم قياس احتياجات السياق العالمي من خلال مقياس التشابه بين السمة العالمية والسمة المحلية الخاصة به، بينما يمكن استخدام القيمة العكسية لهذا المقياس لقياس احتياجات السياق المحلي. نُمذّل قياسات هاتين الطلبَين باستخدام وحدة السياق العالمي المُقترحة ووحدة السياق المحلي المُقترحة على التوالي، لإنتاج سمات سياقية تكيفية. علاوةً على ذلك، نُدخل عدة وحدات كهذه لبناء عدد من الكتل التكيفية للسياق على مستويات مختلفة داخل الشبكة، بهدف تحقيق نتيجة من المستوى الخشنة إلى الدقيقة. وأخيرًا، تُظهر التقييمات التجريبية الشاملة فعالية الشبكة المقترحة ACNet، وتحقيق أداءً جديدًا يُعدّ الأفضل في مجاله على جميع المجموعات العامة الأربعة، وهي: Cityscapes وADE20K وPASCAL Context وCOCO Stuff.