YOLACT++: تحسين التجزئة الزمنية الحقيقية للعناصر

نقدم نموذجًا بسيطًا وكاملًا باستخدام الشبكات العصبية التلافيفية لفصل الحالات في الوقت الحقيقي (أكثر من 30 إطارًا في الثانية) يحقق نتائج تنافسية على مجموعة بيانات MS COCO عند تقييمه على وحدة معالجة واحدة من نوع Titan Xp، وهو أسرع بكثير من أي نهج متقدم سابق. علاوة على ذلك، نحصل على هذا النتيجة بعد التدريب على وحدة معالجة رسومية واحدة فقط. نحقق هذا الأمر من خلال تقسيم فصل الحالات إلى مهامين فرعيين متوازيين: (1) إنشاء مجموعة من الأقنعة النموذجية (prototype masks)، و(2) التنبؤ بمعاملات الأقنعة لكل حالة. ثم ننتج أقنعة الحالات عن طريق الجمع الخطي بين النماذج والمعاملات. نجد أن هذه العملية لا تعتمد على إعادة التجميع (repooling)، مما يجعل هذا النهج ينتج أقنعة ذات جودة عالية للغاية ويظهر استقرارًا زمنيًا بشكل طبيعي. بالإضافة إلى ذلك، نحلل السلوك الناشئ لنماذجنا ونظهر أنها تتعلم تحديد موقع الحالات بمفردها بطريقة متغيرة بالترجمة (translation variant)، رغم كونها كاملة التلافيف. كما نقترح Fast NMS، وهو بديل سريع يمكن تركيبه مباشرة يستغرق 12 ميلي ثانية أقل من NMS القياسية مع وجود عقوبة أداء طفيفة فقط. وأخيرًا، عن طريق دمج التوافقيات القابلة للتشوه في شبكة الدعم الأساسية، وتحسين رأس التنبؤ باستخدام مقاييس ومعدلات جانب أفضل، وإضافة فرع جديد سريع لإعادة تقييم الأقنعة، يمكن لنموذج YOLACT++ لدينا تحقيق 34.1 mAP على مجموعة بيانات MS COCO بمعدل 33.5 إطار في الثانية، وهو قريب جدًا من أفضل الأساليب المتقدمة بينما لا يزال يعمل في الوقت الحقيقي.