HyperAIHyperAI
منذ 2 أشهر

تحسين التجزئة الدلالية من خلال انتشار الفيديو وتخفيف التسمية

Yi Zhu; Karan Sapra; Fitsum A. Reda; Kevin J. Shih; Shawn Newsam; Andrew Tao; Bryan Catanzaro
تحسين التجزئة الدلالية من خلال انتشار الفيديو وتخفيف التسمية
الملخص

التفصيل الدلالي يتطلب كميات كبيرة من التسميات البكسلية الدقيقة لتعلم نماذج دقيقة. في هذا البحث، نقدم منهجية تعتمد على التنبؤ بالفيديو لتوسيع مجموعات التدريب من خلال تركيب عينات تدريب جديدة بهدف تحسين دقة شبكات التفصيل الدلالي. نستفيد من قدرة نماذج التنبؤ بالفيديو على توقع الإطارات المستقبلية للتنبؤ أيضًا بالعلامات المستقبلية. كما تم اقتراح استراتيجية انتشار مشتركة لتخفيف عدم التوافق في العينات المركبة. أظهرنا أن تدريب نماذج التفصيل على مجموعات بيانات تم توسيعها بواسطة العينات المركبة يؤدي إلى تحسينات كبيرة في الدقة. بالإضافة إلى ذلك، نقدم تقنية استرخاء جديدة للتسميات الحدودية تجعل عملية التدريب مقاومة للضوضاء في التسميات والآثار الناجمة عن الانتشار على حدود الأشياء. حققت طرقنا المقترحة أفضل معدلات تقاطع فوق الاتحاد (mIoU) وهي 83.5٪ على Cityscapes و82.9٪ على CamVid. يحقق نموذجنا الفردي، دون استخدام مجموعات النماذج، معدل تقاطع فوق الاتحاد (mIoU) بنسبة 72.8٪ على مجموعة اختبار KITTI للتفصيل الدلالي، مما يتجاوز أفضل مشاركة في تحدي ROB لعام 2018. يمكن العثور على شفرتنا البرمجية ومقاطع الفيديو الخاصة بنا على الرابط: https://nv-adlr.github.io/publication/2018-Segmentation.请注意,"Cityscapes" 和 "CamVid" 是数据集的名称,通常在阿拉伯语中保留其英文形式。同样,“mIoU”(Mean Intersection over Union)是一个常见的评估指标,也通常以英文缩写形式出现。