CAR: تنظيمات واعية بالفئة للفصل الدلالي

أظهرت الطرق الحديثة للتقسيم، مثل OCR وCPNet، التي تستخدم معلومات على مستوى الفئة إلى جانب ميزات البكسل، نجاحًا ملحوظًا في تعزيز دقة وحدات الشبكة الحالية. ومع ذلك، فإن المعلومات المستخلصة على مستوى الفئة كانت تُدمج ببساطة مع ميزات البكسل دون استغلال صريح لتحسين تعلم تمثيل البكسل. علاوةً على ذلك، تعتمد هذه الأساليب على تعلم مراكز فئات ناعمة استنادًا إلى تنبؤات قصيرة بحدود القنوات، وهي عرضة لتكاثر الأخطاء. في هذه الورقة، نهدف إلى استخدام معلومات المستوى الفئوي بشكل أكثر فعالية، ونُقدّم منهجية عامة تُسمى التسوية المُدركة للفئة (Class-Aware Regularization - CAR) لتحسين التباين الداخلي بين الفئات والمسافة بين الفئات أثناء تعلم الميزات، مستمدين الحافز من حقيقة أن البشر قادرون على التعرف على كائن ما بذاته بغض النظر عن الكائنات الأخرى التي يظهر معها. نقترح ثلاث دوال خسارة جديدة: الأولى تُشجع على تمثيلات فئوية أكثر اكتمالاً داخل كل فئة، والثانية تُحسّن بشكل مباشر المسافة بين مراكز الفئات المختلفة، والثالثة تزيد من المسافة بين مراكز الفئات المختلفة ونقاط البكسل. بالإضافة إلى ذلك، يتم إنشاء مركز الفئة في منهجيتنا مباشرةً من البيانات الحقيقية (ground truth) بدلاً من الاعتماد على التنبؤات القصيرة الخاطئة. يمكن تطبيق طريقة我们的 بسهولة على معظم نماذج التقسيم الحالية أثناء التدريب، بما في ذلك OCR وCPNet، وتحسّن دقتها بشكل كبير دون أي تكلفة إضافية أثناء الاستنتاج. أظهرت التجارب الواسعة والدراسات التحليلية على عدة مجموعات بيانات معيارية أن CAR المقترحة يمكنها رفع دقة جميع النماذج الأساسية بنسبة تصل إلى 2.23% في مقياس mIOU، مع قدرة عامة متفوقة. يتوفر الكود الكامل على الرابط: https://github.com/edwardyehuang/CAR.