HyperAIHyperAI

Command Palette

Search for a command to run...

LMPT: تعديل المقترح مع خسارة تضمين محددة بالفئة لتمييز بصري متعدد التسميات بطول طويل

Peng Xia Di Xu Ming Hu Lie Ju Zongyuan Ge

الملخص

إن مهمة التعرف البصري متعدد التصنيفات ذات الطول الطويل (LTML) تمثل مهمة صعبة للغاية نظرًا لوجود تداخل التصنيفات (label co-occurrence) وتوزيع البيانات غير المتوازن. في هذا العمل، نقترح إطارًا موحدًا لـ LTML يُسمى "الضبط بالإشارة مع دالة خسارة تضمين مخصصة للتصنيف" (LMPT)، والذي يُدرك التفاعلات بين السمات الدلالية بين الفئات من خلال دمج بيانات الوسائط النصية والبصرية، ويعزز الأداء بشكل متزامن على كل من الفئات الرئيسية (head classes) والفئات الضعيفة (tail classes). بشكل خاص، يُدخل LMPT دالة خسارة تضمينية ذات حد لين مُدرك للفئة (class-aware soft margin) وقابلة لإعادة التوزيع، بهدف تعلُّم سياقات مخصصة لكل فئة بفضل الوصف النصي (التعليقات التوضيحية)، مما يساعد على بناء علاقات دلالية بين الفئات، وخاصة بين الفئات الرئيسية والضعيفة. علاوةً على ذلك، وباعتبار التوازن بين الفئات، يتم اعتماد دالة خسارة مُوازنة التوزيع (distribution-balanced loss) كدالة خسارة تصنيفية لتعزيز الأداء على الفئات الضعيفة دون التأثير على أداء الفئات الرئيسية. أُجريت تجارب واسعة على مجموعتي بيانات VOC-LT وCOCO-LT، وأظهرت النتائج أن طريقة العمل لدينا تتفوّق بشكل ملحوظ على الطرق السابقة الأكثر تقدّمًا، وكذلك على نموذج CLIP بدون تدريب (zero-shot CLIP) في مهام LTML. تُعدّ الكودات الخاصة بنا متاحة بشكل كامل على منصة GitHub عبر الرابط التالي: https://github.com/richard-peng-xia/LMPT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LMPT: تعديل المقترح مع خسارة تضمين محددة بالفئة لتمييز بصري متعدد التسميات بطول طويل | مستندات | HyperAI