DeeperLab: محرك تحليل الصور في تصويرة واحدة

نقدم نهجًا مبسطًا من الأسفل إلى الأعلى لتحليل الصورة الكاملة. تحليل الصورة الكاملة، المعروف أيضًا باسم التجزئة البانورامية (Panoptic Segmentation)، يعمم مهام التجزئة الدلالية للتصنيفات "المادة" (stuff) والتجزئة الشمولية للتصنيفات "الشيء" (thing)، حيث يتم تعيين العلامات الدلالية والشمولية لكل بكسل في الصورة. النهج الحديث لتحليل الصورة الكاملة غالبًا ما يستخدم وحدات مستقلة منفصلة للمهام الفرعية للتجزئة الدلالية والشمولية ويحتاج إلى عدة عمليات استدلال متكررة. بدلاً من ذلك، يقوم مُحلل الصور DeeperLab المقترح بتحليل الصورة الكاملة باستخدام نهج تناويلي تمامًا وأبسط بكثير، يعالج فيه المهامين الدلالية والشمولية بشكل مشترك في عملية واحدة، مما يؤدي إلى نظام أكثر سلاسة يمكنه التعامل مع البيانات بسرعة أكبر. بالنسبة للتقييم الكمي، نستخدم كل من مؤشر الجودة البانورامي القائم على الشموليات (PQ) ومؤشر التغطية القائم على المناطق (PC) المقترح حديثًا، والذي يلتقط جودة تحليل الصورة بشكل أفضل على التصنيفات "المادة" والأجسام الكبيرة. نقدم نتائج التجارب على مجموعة بيانات Mapillary Vistas الصعبة، حيث حقق نموذجنا الوحيد نسبة 31.95٪ (للتحقق) / 31.6٪ PQ (للاختبار) ونسبة 55.26٪ PC (للتحقق) بمعدل 3 صور في الثانية (إطار في الثانية أو fps) على وحدة معالجة الرسومات (GPU)، أو بسرعة قريبة من الوقت الحقيقي (22.6 إطار في الثانية على GPU) مع دقة أقل قليلاً.