UniMatch V2: دفع حدود التجزئة الدلالية شبه المشرفة

الترجمة:يهدف التجزئة الدلالية شبه المشرف عليها (SSS) إلى تعلم المعرفة البصرية الغنية من الصور غير المصنفة والرخيصة لتعزيز قدرات التجزئة الدلالية. من بين الأعمال الحديثة، يحسن UniMatch سوابقه بشكل كبير من خلال تعزيز ممارسة التنظيم الانتقائي الضعيف إلى القوي. عادةً ما تتبع الأعمال اللاحقة خطوط عمل مشابهة وتقدم تصاميم دقيقة متنوعة. رغم التقدم الذي تحقق، فإن الأمر غريب، حتى في هذا العصر الزاهر للعديد من نماذج الرؤية القوية، لا تزال معظم أعمال SSS تتمسك بـ 1) استخدام مُشفرات ResNet القديمة مع تدريب مسبق على مجموعة بيانات ImageNet-1K الصغيرة الحجم، و2) التقييم على مجموعات بيانات بسيطة مثل Pascal و Cityscapes. في هذه الدراسة، نعتقد أنه من الضروري تحويل الأساس المرجعي لـ SSS من مُشفرات ResNet إلى مُشفرات ViT الأكثر قدرة (مثل DINOv2) التي تم تدريبها بشكل مسبق على كميات ضخمة من البيانات. يمكن أن يجلب تحديث بسيط للمُشفر (حتى باستخدام عدد أقل بمقدار ضعفين من المعلمات) تحسينًا أكثر أهمية مما توفره التصاميم الدقيقة للطرق. بناءً على هذا الأساس المرجعي التنافسي، نقدم UniMatch V2 المطور والمبسط، الذي يرث الروح الأساسية للتناسق الضعيف إلى القوي من الإصدار V1، ولكنه يتطلب تكلفة تدريب أقل ويوفر نتائج أفضل باستمرار. بالإضافة إلى ذلك، ومع شهودنا على الأداء المتزايد التشبع في Pascal و Cityscapes، ندعو إلى التركيز على مقاييس أصعب ذات تصنيف معقد مثل مجموعات بيانات ADE20K و COCO. يمكن الوصول إلى الكود والنماذج والسجلات لكل القيم المبلغ عنها عبر الرابط: https://github.com/LiheYoung/UniMatch-V2.الشرح:- "Semi-supervised semantic segmentation" تم ترجمتها إلى "التجزئة الدلالية شبه المشرف عليها" وهي المصطلح المستخدم في مجال الرؤية الحاسوبية باللغة العربية.- "ResNet" و "ViT" هما اختصارات تقنية معروفة ولذا تم تركهما كما هي.- "ImageNet-1K" هو اسم مجموعة بيانات مشهورة ولذا تم تركه كما هو.- "Pascal" و "Cityscapes" هما أسماء لمجموعات بيانات معروفة ولذا تم تركهما كما هما.- "DINOv2" هو اسم طراز تقني حديث ولذا تم تركه كما هو.- "ADE20K" و "COCO" هما أسماء لمجموعات بيانات أخرى معروفة ولذا تم تركهما كما هما.- الرابط الإلكتروني الأخير تم إبقاؤه دون تغيير لأنه عنوان مباشر لموقع الإنترنت.