HyperAIHyperAI
منذ 11 أيام

إعادة التفكير في الت convolution المُتَوسِّعَة للفصل الدلالي الزمني الفعلي

Roland Gao
إعادة التفكير في الت convolution المُتَوسِّعَة للفصل الدلالي الزمني الفعلي
الملخص

يُعد مجال الرؤية (Field-of-View) مقياسًا مهمًا عند تصميم نموذج لتقسيم الدلالي (Semantic Segmentation). لاستخلاص مجال رؤية واسع، اعتمدت الطرق السابقة عادةً على تقليل سرعة التنازل عن الدقة بشكل سريع، غالبًا باستخدام التجميع المتوسط (Average Pooling) أو التحويلات التلافيفية ذات الخطوة 2 (Stride 2 Convolutions). نتبع نهجًا مختلفًا من خلال استخدام التحويلات التلافيفية المُتَوَسِّعة (Dilated Convolutions) بقيم توسُّع كبيرة عبر البنية الأساسية (Backbone)، مما يمكّن البنية من ضبط مجال رؤيتها بسهولة عبر تعديل معدلات التوسيع، ونُظهر أن أداءها يتنافس مع الطرق الحالية. وللاستفادة الفعّالة من التحويلات التلافيفية المُتَوَسِّعة، نقدّم حدًا علويًا بسيطًا لمعدل التوسيع لتجنب الفجوات بين أوزان التحويلات، ونُصمم هيكلًا مُستوحى من SE-ResNeXt يعتمد على تحويلين تلافيفيين متوازيين بحجم $3\times 3$ بمقادير توسُّع مختلفة، بهدف الحفاظ على التفاصيل المحلية. وقد يُعد ضبط معدلات التوسيع يدويًا لكل كتلة أمرًا صعبًا، لذا نُقدّم أيضًا طريقة بحث معمارية عصبية قابلة للتفاضل تستخدم تناقص التدرج (Gradient Descent) لتحسين معدلات التوسيع تلقائيًا. بالإضافة إلى ذلك، نقترح مُفكِّكًا خفيف الوزن (Lightweight Decoder) يُعيد استرداد المعلومات المحلية بشكل أفضل من البدائل الشائعة. ولإثبات فعالية نهجنا، حقق نموذجنا RegSeg نتائج تنافسية على مجموعتي بيانات Cityscapes وCamVid الزمنية الحقيقية. وباستخدام وحدة معالجة رسومات T4 مع الدقة المختلطة (Mixed Precision)، حقق RegSeg تقييمًا قدره 78.3 mIOU على مجموعة اختبار Cityscapes بسرعة 37 إطارًا في الثانية، و80.9 mIOU على مجموعة اختبار CamVid بسرعة 112 إطارًا في الثانية، دون الحاجة إلى التدريب المسبق على ImageNet.

إعادة التفكير في الت convolution المُتَوسِّعَة للفصل الدلالي الزمني الفعلي | أحدث الأوراق البحثية | HyperAI