شبكة مجال استقبال متعدد للتحليل الدلالي

التحليل الدلالي يُعدّ إحدى المهام الأساسية في الرؤية الحاسوبية، حيث يُقصد به تعيين تصنيف فئوي لكل بكسل في صورة. وعلى الرغم من التقدم الكبير الذي تم تحقيقه مؤخرًا، تظل معظم الطرق الحالية تعاني من مشكلتين صعبتين: 1) يمكن أن تكون أحجام الكائنات والمواد في الصورة متباينة جدًا، مما يتطلب دمج ميزات متعددة المقياس في الشبكات التلافيفية الكاملة (FCNs)؛ 2) يصعب تصنيف البكسلات القريبة من الحدود أو الواقعة على الحدود بين الكائنات/المواد بسبب الضعف الداخلي للشبكات التلافيفية. ولحل المشكلة الأولى، نقترح وحدة جديدة تُسمى "وحدة المجال الاستقبال المتعدد" (MRFM)، والتي تأخذ الميزات متعددة المقياس بشكل صريح بعين الاعتبار. أما للتعامل مع المشكلة الثانية، فقد صممنا دالة خسارة واعية للحواف، والتي أثبتت فعاليتها في التمييز بين حدود الكائنات/المواد. وباستخدام هذين التصميمين، تحقق شبكة المجال الاستقبالي المتعدد نتائج جديدة في مستوى الحد الأقصى المُحقق (state-of-the-art) على حالتين شائعتين من مجموعات بيانات التحليل الدلالي. وتحديدًا، حققنا متوسطًا لمعيار IoU بلغ 83.0 على مجموعة بيانات Cityscapes، و88.4 على مجموعة بيانات Pascal VOC2012.