تقرير تقني لمنافسة LVIS: حل المركز الأول: التوازن التوزيعي وتحسين الحدود لفصل المُثَلَّة الكبير المُتَوَسِّع في المفردات

يقدم هذا التقرير التفاصيل التقنية لفريق FuXi-Fresher في مسابقة LVIS 2021. يركّز منهجنا على مشكلتين رئيسيتين: التوزيع الطويل الذيل (long-tail distribution) وجودة التجزئة الخاصة بالقناع (mask) والحدود (boundary). استنادًا إلى خوارزمية التجزئة البارزة للهياكل (HTC)، نربط نموذجًا أساسيًا مبنيًا على مُحَوِّل (transformer) من نوع Swin-L باستخدام اتصالات مركبة مستوحاة من نموذج CBNetv2 لتعزيز النتائج الأساسية. ولتخفيف مشكلة التوزيع الطويل الذيل، نصمم طريقة متوازنة للترميز (Distribution Balanced) تتضمن وحدتين: توازن البيانات (dataset balanced) وموازنة دالة الخسارة (loss function balanced). علاوةً على ذلك، نستخدم طريقة تحسين القناع والحدود (Mask and Boundary Refinement) المكوّنة من خوارزميتي تقييم القناع (mask scoring) وتحسين القناع (refine-mask) لرفع جودة التجزئة. وبالإضافة إلى ذلك، لاحظنا بسرور أن دمج تقنية التوقف المبكر (early stopping) مع طريقة التقدير المتحرك المُتوسّط (EMA) يؤدي إلى تحسين كبير في الأداء. وأخيرًا، وباستخدام اختبار متعدد المقاييس وزيادة الحد الأقصى لعدد الكائنات المكتشفة في كل صورة، تحققنا من تجاوز 45.4% من AP الحدود (boundary AP) على مجموعة التحقق (val set) في مسابقة LVIS 2021. أما على بيانات الاختبار في مسابقة LVIS 2021، فقد تصدرنا التصنيف الأول وحققنا 48.1% من AP. وبشكل ملحوظ، فإن قيمة APr لدينا البالغة 47.5% قريبة جدًا من قيمة APf التي بلغت 48.0%.