HyperAIHyperAI
منذ 9 أيام

التعرف البصري متعدد التسميات ذي التوزيع الطويل من خلال التدريب التعاوني على عينات موحدة ومعاد توازنها

{Song Wang, Hao Guo}
التعرف البصري متعدد التسميات ذي التوزيع الطويل من خلال التدريب التعاوني على عينات موحدة ومعاد توازنها
الملخص

تُعد توزيعات البيانات ذات الذيل الطويل شائعة في العديد من مهام التعرف البصري متعدد التصنيفات، وغالبًا ما يؤدي استخدام هذه البيانات مباشرة في التدريب إلى أداء منخفض نسبيًا على الفئات الضعيفة (الذيل). بينما يمكن لاسترداد التوازن في عينات البيانات أن يُحسّن الأداء على الفئات الضعيفة، إلا أنه قد يؤثر سلبًا على الأداء على الفئات القوية (الرأس) أثناء التدريب بسبب التوافر المشترك للوسوم. في هذا البحث، نقترح منهجية جديدة لتدريب النموذج باستخدام عينات متساوية وعينات مُعاد توازنها بطريقة تعاونية، مما يؤدي إلى تحسين الأداء على كل من الفئات القوية والضعيفة. وبشكل أكثر تحديدًا، نصمم شبكة للإدراك البصري ذات فرعين: يأخذ الفرع الأول العينة المتساوية كمدخل، بينما يأخذ الفرع الثاني العينة المُعاد توازنها كمدخل. بالنسبة لكل فرع، نُجري التعرف البصري باستخدام دالة خسارة تصنيف تعتمد على التباعد الثنائي (binary cross-entropy) مع تعويض قابل للتعلم لقيم اللوغاريتم (logits). كما نُعرّف خسارة جديدة بين الفرعين لضمان الاتساق عندما يمر نفس الصورة عبر الفرعين. أجرينا تجارب واسعة على مجموعتي بيانات VOC-LT وCOCO-LT، وأظهرت النتائج أن المنهجية المقترحة تتفوق بشكل ملحوظ على أحدث الطرق السابقة في مهام التعرف البصري متعدد التصنيفات ذات التوزيع الطويل الذيل.