AllSpark: إعادة تسمية الميزات غير المصنفة في المحول للتمييز الدلالي شبه المشرف عليه

تم اقتراح التجزئة الدلالية شبه المُشرف عليها (SSSS) لتخفيف عبء التسمية اليدوية على مستوى البكسل، والتي تستفيد من بيانات مُسَمَّة محدودة إلى جانب كميات أكبر من البيانات غير المُسَمَّة. تدرب الأساليب الحالية الرائدة البيانات المُسَمَّة باستخدام الحقائق الأرضية والبيانات غير المُسَمَّة باستخدام العلامات الوهمية. ومع ذلك، فإن تدفقي التدريب هذين منفصلان، مما يسمح للبيانات المُسَمَّة بالسيطرة على عملية التدريب، مما يؤدي إلى جودة منخفضة للعلامات الوهمية وبالتالي نتائج دون الأمثل. لحل هذه المشكلة، نقدم AllSpark، الذي يعيد إنتاج الخصائص المُسَمَّة من البيانات غير المُسَمَّة باستخدام آلية الانتباه عبر القنوات (channel-wise cross-attention). كما نقوم بتقديم ذاكرة دلالية واستراتيجية تجميع قنوات دلالية لضمان أن الخصائص غير المُسَمَّة تمثل بشكل كافٍ الخصائص المُسَمَّة. يقدم AllSpark رؤى جديدة في تصاميم المستوى المعماري لـ SSSS بدلاً من المستوى الإطاري، مما يتجنب تصاميم خطوط تدريب متزايدة التعقيد. يمكن أيضًا اعتباره وحدة زجاجية مرنة يمكن دمجها بسهولة في نموذج تقسيم عام يستند إلى المحول (transformer). أثبت AllSpark المقترح أنه أفضل من الأساليب الموجودة في جميع بروتوكولات التقييم على مقاييس Pascal وCityscapes وCOCO دون الحاجة إلى تعديلات معقدة. يمكن الحصول على الكود وأوزان النموذج من الرابط التالي: https://github.com/xmed-lab/AllSpark.