التمييز الشجري عن طريق تحسين المتجهات المكانية وعرض النطاق الترددي للتجميع بشكل مشترك

الطرق الحالية الأكثر تقدماً في تقسيم النماذج (instance segmentation) ليست مناسبة للتطبيقات الفورية مثل القيادة الذاتية، والتي تتطلب أوقات تنفيذ سريعة بدقة عالية. رغم أن الطرق المعتمدة على اقتراحات (proposal-based methods) التي تهيمن حاليًا على المجال لديها دقة عالية، إلا أنها بطيئة وتولد الأقنعة (masks) بدقة ثابتة ومنخفضة. بالمقابل، يمكن للطرق الخالية من الاقتراحات (proposal-free methods) أن تولد الأقنعة بدقة عالية وغالبًا ما تكون أسرع، لكنها لا تتمكن من الوصول إلى نفس مستوى الدقة الذي تحققه الطرق المعتمدة على الاقتراحات. في هذا البحث، نقترح دالة خسارة جديدة للتجميع لتقسيم النماذج الخالية من الاقتراحات. تقوم دالة الخسارة بجمع التضمينات المكانية (spatial embeddings) للبكسلات التابعة لنفس النموذج معًا وتعلم بشكل مشترك نطاق تجميع محدد لكل نموذج، مما يزيد من نسبة التقاطع على الاتحاد (intersection-over-union) للأقنعة الناتجة عن النموذج. عند الجمع بين هذه الدالة والهندسة السريعة، يمكن للشبكة تنفيذ تقسيم النماذج في الوقت الفعلي مع الحفاظ على دقة عالية. قمنا بتقييم طرقنا على معيار Cityscapes الصعب وحققنا أفضل النتائج (تحسن بنسبة 5٪ مقارنة بـ Mask R-CNN) بمعدل أكثر من 10 إطار في الثانية على صور بدقة 2 ميجابكسل. سيتم توفير الكود في https://github.com/davyneven/SpatialEmbeddings .