التقاط السياق الشامل النطاق للفصل الشامل الاتجاهات

تُظهر الشبكات التلافيفية (ConvNets) كفاءة عالية في التجزئة الدلالية، وأصبحت عنصراً أساسياً في أنظمة الإدراك المستقلة للقيادة. تُعد الكاميرات الشاملة (التي تغطي 360 درجة) مثالاً مثالياً لهذه الأنظمة، نظراً لتمكينها من توفير رؤية شاملة لمشاهد الطرق. تعمل معظم نماذج التجزئة المُستخدمة لتحليل البيئات الحضرية على صور ذات مجال رؤية ضيق شائع. ومع انتقال هذه النماذج من المجال الذي صُمّمت من أجله إلى مجال الإدراك بزاوية 360 درجة، تنخفض أداؤها بشكل كبير، إذ تُسجّل خسارة قدرها 30.0% مطلقة (بمقياس mIoU) على منصات اختبار مُتعارف عليها. ولسد الفجوة بين مجالات التصوير من حيث مجال الرؤية والتوزيع الهيكلي، نقدّم شبكات الانتباه الفعّالة المتزامنة (ECANets)، التي تُركّز مباشرة على الاعتماديات طويلة المدى المتأصلة في الصور الشاملة. بالإضافة إلى الأولويات السياقية القائمة على الانتباه التي تم تعلّمها، والتي تمتد عبر الصور بزاوية 360 درجة، نُحسّن تدريب النموذج من خلال الاستفادة من التعلّم متعدد المصادر والتعلّم الشامل (omni-supervised)، مستفيدين من كلا النوعين: البيانات المُعلّمة بكثافة والبيانات غير المُعلّمة الناتجة عن مجموعات بيانات متعددة. ولتعزيز التقدّم في مجال تجزئة الصور البانورامية، نقدّم ونُقيّم على نطاق واسع نماذج على مجموعة بيانات التجزئة الدلالية البانورامية البرية (WildPASS)، التي صُمّمت لالتقاط مشاهد متنوعة من جميع أنحاء العالم. يُسهم نموذجنا الجديد، وطريقة تدريبه، ودمج التنبؤات من مصادر متعددة، في رفع الأداء (بمقياس mIoU) إلى نتائج قياسية جديدة على منصات PASS العامة (60.2%) وWildPASS الجديدة (69.0%).