LMPT: تعديل المقترح مع خسارة تضمين محددة بالفئة لتمييز بصري متعدد التسميات بطول طويل

إن مهمة التعرف البصري متعدد التصنيفات ذات الطول الطويل (LTML) تمثل مهمة صعبة للغاية نظرًا لوجود تداخل التصنيفات (label co-occurrence) وتوزيع البيانات غير المتوازن. في هذا العمل، نقترح إطارًا موحدًا لـ LTML يُسمى "الضبط بالإشارة مع دالة خسارة تضمين مخصصة للتصنيف" (LMPT)، والذي يُدرك التفاعلات بين السمات الدلالية بين الفئات من خلال دمج بيانات الوسائط النصية والبصرية، ويعزز الأداء بشكل متزامن على كل من الفئات الرئيسية (head classes) والفئات الضعيفة (tail classes). بشكل خاص، يُدخل LMPT دالة خسارة تضمينية ذات حد لين مُدرك للفئة (class-aware soft margin) وقابلة لإعادة التوزيع، بهدف تعلُّم سياقات مخصصة لكل فئة بفضل الوصف النصي (التعليقات التوضيحية)، مما يساعد على بناء علاقات دلالية بين الفئات، وخاصة بين الفئات الرئيسية والضعيفة. علاوةً على ذلك، وباعتبار التوازن بين الفئات، يتم اعتماد دالة خسارة مُوازنة التوزيع (distribution-balanced loss) كدالة خسارة تصنيفية لتعزيز الأداء على الفئات الضعيفة دون التأثير على أداء الفئات الرئيسية. أُجريت تجارب واسعة على مجموعتي بيانات VOC-LT وCOCO-LT، وأظهرت النتائج أن طريقة العمل لدينا تتفوّق بشكل ملحوظ على الطرق السابقة الأكثر تقدّمًا، وكذلك على نموذج CLIP بدون تدريب (zero-shot CLIP) في مهام LTML. تُعدّ الكودات الخاصة بنا متاحة بشكل كامل على منصة GitHub عبر الرابط التالي: https://github.com/richard-peng-xia/LMPT.