التحليل الدلالي القائم على RGB باستخدام التدريب المسبق للعمق الذاتي التدريب

رغم أن المجموعات الكبيرة المعروفة من البيانات، مثل ImageNet، ساهمت بشكل كبير في تطوير فهم الصور، إلا أن معظم هذه المجموعات تتطلب تسمية يدوية واسعة النطاق، مما يجعلها غير قابلة للتوسع بسهولة. وهذا يحد من تقدم تقنيات فهم الصور. ويمكن ملاحظة أثر هذه المجموعات الكبيرة في معظم المهام والتقنيات البصرية من خلال التدريب المسبق (pre-training) كطريقة لتهيئة النموذج. في هذا العمل، نقترح تقنية قابلة للتوسع بسهولة وتعتمد على التعلم الذاتي (self-supervised) يمكن استخدامها لتدريب أي طريقة لتصنيف الألوان RGB المعنوي (semantic RGB segmentation) مسبقًا. وبشكل خاص، تستخدم طريقة التدريب المسبق لدينا تسميات تُولَّد تلقائيًا، ويمكن الحصول عليها باستخدام أجهزة استشعار العمق (depth sensors). وتُعرف هذه التسميات بـ "تسميات HN"، حيث تمثل مناطق مختلفة من الارتفاع (height) والاتجاه الطبيعي (normal)، مما يمكّن من استخلاص معلومات معنوية محلية مفيدة في مهمة تصنيف الألوان RGB المعنوي. نُظهر كيف يمكن استخدام التدريب المسبق الذاتي المقترح مع تسميات HN كبديل لتدريب ImageNet، مع استخدام 25 مرة أقل من الصور، وبلا الحاجة إلى أي تسمية يدوية. تم تدريب شبكة تصنيف معنوي باستخدام تسميات HN، وهي أقرب إلى المهمة النهائية مقارنةً بالتدريب المسبق على مهمة أقل صلةً، مثل التصنيف باستخدام ImageNet. وقد تم تقييم الأداء على مجموعتي بيانات (NYUv2 وCamVid)، ونُظهر كيف أن التشابه بين المهام يُعد ميزة لا تُقدّر بثمن، ليس فقط في تسريع عملية التدريب المسبق، بل أيضًا في تحقيق دقة أعلى في التصنيف المعنوي النهائي مقارنةً بالتدريب المسبق باستخدام ImageNet.