HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف البصري متعدد التسميات ذي التوزيع الطويل من خلال التدريب التعاوني على عينات موحدة ومعاد توازنها

Song Wang Hao Guo

الملخص

تُعد توزيعات البيانات ذات الذيل الطويل شائعة في العديد من مهام التعرف البصري متعدد التصنيفات، وغالبًا ما يؤدي استخدام هذه البيانات مباشرة في التدريب إلى أداء منخفض نسبيًا على الفئات الضعيفة (الذيل). بينما يمكن لاسترداد التوازن في عينات البيانات أن يُحسّن الأداء على الفئات الضعيفة، إلا أنه قد يؤثر سلبًا على الأداء على الفئات القوية (الرأس) أثناء التدريب بسبب التوافر المشترك للوسوم. في هذا البحث، نقترح منهجية جديدة لتدريب النموذج باستخدام عينات متساوية وعينات مُعاد توازنها بطريقة تعاونية، مما يؤدي إلى تحسين الأداء على كل من الفئات القوية والضعيفة. وبشكل أكثر تحديدًا، نصمم شبكة للإدراك البصري ذات فرعين: يأخذ الفرع الأول العينة المتساوية كمدخل، بينما يأخذ الفرع الثاني العينة المُعاد توازنها كمدخل. بالنسبة لكل فرع، نُجري التعرف البصري باستخدام دالة خسارة تصنيف تعتمد على التباعد الثنائي (binary cross-entropy) مع تعويض قابل للتعلم لقيم اللوغاريتم (logits). كما نُعرّف خسارة جديدة بين الفرعين لضمان الاتساق عندما يمر نفس الصورة عبر الفرعين. أجرينا تجارب واسعة على مجموعتي بيانات VOC-LT وCOCO-LT، وأظهرت النتائج أن المنهجية المقترحة تتفوق بشكل ملحوظ على أحدث الطرق السابقة في مهام التعرف البصري متعدد التصنيفات ذات التوزيع الطويل الذيل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp