ماسك فروزن-ديتر: التجزئة الائتمانية عالية الجودة باستخدام وحدة معالجة واحدة

في هذه الورقة، نهدف إلى دراسة كيفية بناء مُقسِّم للInstances قوي باستخدام أقل وقت تدريب وأقل عدد من وحدات معالجة الرسومات (GPUs)، على عكس معظم الطرق الحالية التي تسعى لتحقيق دقة أعلى في التجزئة الInstance من خلال بناء أطر عمل أكثر تقدماً، بسعر زمن تدريب أطول ومتطلبات أعلى من وحدات معالجة الرسومات. لتحقيق هذا الهدف، نقدّم إطاراً بسيطاً وعاماً يُسمّى Mask Frozen-DETR، والذي يمكنه تحويل أي نموذج كشف كائنات قائمة على DETR إلى نموذج قوي للتجزئة الInstance. تعتمد طريقة عملنا على تدريب شبكة قناع خفيفة الوزن إضافية فقط، تتنبأ بقناعات الInstance داخل المربعات المحاطة التي تُولِّدها نموذج كشف الكائنات القائم على DETR المُجمَّد. وبشكل ملحوظ، تتفوّق طريقة عملنا على أحدث طريقة للتجزئة الInstance، وهي Mask DINO، من حيث الأداء على مجموعة بيانات COCO test-dev (55.3% مقابل 54.7%)، مع أن زمن التدريب لديها يتجاوز 10 أضعاف السرعة. علاوة على ذلك، يمكن إجراء جميع تجاربنا باستخدام وحدة معالجة رسومات واحدة فقط من نوع Tesla V100 بذاكرة 16 جيجابايت، مما يُظهر الكفاءة الكبيرة للإطار المُقترح.