منذ 2 أشهر
تدريب شبكات التلافيف على مجموعات بيانات متعددة ومختلفة لأجل تقسيم المشاهد الشارعية إلى عناصر معنوية
Panagiotis Meletis; Gijs Dubbelman

الملخص
نقترح شبكة تلافيفية مع تصنيفات هرمية للتمييز الدلالي لكل بكسل، والتي يمكن تدريبها على مجموعات بيانات متعددة ومختلفة وتوظيف الهرم الدلالي لها. شبكتنا هي الأولى التي يتم تدريبها بشكل متزامن على ثلاث مجموعات بيانات مختلفة من مجال المركبات الذكية، وهي Cityscapes و GTSDB و Mapillary Vistas، ويمكنها التعامل مع مستويات دلالية مختلفة، وعدم توازن الفئات، وأنواع مختلفة من التسميات، أي التسميات الكثيفة لكل بكسل والتسميات النادرة للصناديق الحدودية. نقيم نهجنا الهرمي من خلال المقارنة مع تصنيفات غير هرمية وغير مرتبة، ونظهر تحسينات في دقة البكسل المتوسطة بنسبة 13.0٪ لفئات Cityscapes و 2.4٪ لفئات Vistas و 32.3٪ لفئات GTSDB. يحقق تنفيذنا معدل استدلال قدره 17 إطارًا في الثانية عند دقة 520x706 لـ 108 فئة تعمل على وحدة معالجة الرسوم (GPU).