MSeg: مجموعة بيانات مركبة للفصل الدلالي متعدّد المجالات

نقدّم MSeg، مجموعة بيانات مركبة توحّد بيانات التجزئة الدلالية من مجالات مختلفة. يؤدي الدمج البسيط للمجموعات الفرعية إلى أداء ضعيف بسبب التصنيفات غير الموحدة وممارسات التسمية غير المتناسقة. نُصلح التصنيفات ونُنسّق التسميات على مستوى البكسل من خلال إعادة تسمية أكثر من 220,000 قناع كائن في أكثر من 80,000 صورة، مما يتطلب أكثر من 1.34 سنة من الجهد التشاركي للمُحدّثين. تُمكّن هذه المجموعة المركبة من تدريب نموذج تجزئة دلالية واحد يعمل بكفاءة عبر المجالات المختلفة، ويعمل بشكل عام على مجموعات بيانات لم تُرَ أثناء التدريب. نستخدم نقلًا صفر-النماذج عبر المجموعات كمقياس معياري لتقييم منهجي لمقاومة النموذج، ونُظهر أن تدريب MSeg يُنتج نماذج أكثر مقاومة مقارنةً بتدريب النماذج على مجموعات بيانات منفصلة أو بدمجها بشكل بسيط دون المساهمات المقدمة. يحتل النموذج المدرب على MSeg المرتبة الأولى في قائمة التصنيف WildDash-v1 للتجزئة الدلالية المقاومة، دون أي تعرّض للبيانات من WildDash أثناء التدريب. نُقيّم نماذجنا في تحدّي الرؤية المقاومة لعام 2020 (RVC) كتجربة تعميم متطرفة. تشمل مجموعات التدريب في MSeg ثلاثًا فقط من مجموعات البيانات السبع في RVC؛ والأهم من ذلك، أن التصنيف المستخدم في التقييم في RVC مختلف وذو تفاصيل أعمق. وبشكل مفاجئ، تُظهر نماذجنا أداءً تنافسيًا وتُصنف في المرتبة الثانية. ولتقييم مدى قربنا من الهدف الكبير المتمثل في فهم المشهد المقاوم وذو الكفاءة الكاملة، نتجاوز التجزئة الدلالية من خلال تدريب نماذج للتجزئة الفردية والتجزئة الشاملة (البانوبتيك) باستخدام مجموعتنا. علاوةً على ذلك، نُقيّم مختلف قرارات التصميم الهندسي والمقاييس، بما في ذلك الدقة والكفاءة الحسابية. وعلى الرغم من أن نماذجنا لا تزال بعيدة عن هذا الهدف الكبير، فإن تقييمنا الشامل ضروري لدفع عجلة التقدّم. ونُشاط جميع النماذج والكود مع المجتمع.