حل المركز الأول في تحدّي LVIS 2020: ليس من الضروري أن تكون مربع جيدًا يعني قناعًا جيدًا

يقدم هذا المقال حلول فريق lvisTraveler للمُسابقة LVIS 2020. وفي هذا العمل، تُؤخذ بعين الاعتبار سمتان رئيسيتان في مجموعة بيانات LVIS: التوزيع الطويل الذيل (long-tailed distribution) ودقة قناع التجزئة البدنية (high quality instance segmentation mask). نستخدم نموذجًا تدريبيًا ثنائي المرحلة. في المرحلة الأولى، ندمج بين تقنية EQL وتدريب ذاتي (self-training) لتعلم تمثيل عام مُعمَّم. وفي المرحلة الثانية، نستخدم Balanced GroupSoftmax لتحسين التصنيف، ونُقدِّم استراتيجية جديدة لتعيين الاقتراحات (proposal assignment strategy) ووظيفة خسارة جديدة متوازنة للقناع (balanced mask loss) لتحسين دقة تنبؤات القناع في رأس التجزئة. في النهاية، نحقق 41.5 و41.2 في مقياس AP على مجموعتي التحقق (val) والاختبار التجريبي (test-dev) من LVIS v1.0 على التوالي، مما يفوق بكثير النموذج الأساسي المستند إلى X101-FPN-MaskRCNN.