HyperAIHyperAI
منذ 9 أيام

مُبْدَأُ التَّعْرِيفِ الطَّوِيلِ بَسِيطٌ عَبْرِ نموذجِ الرُّؤْيَةِ واللُّغَةِ

Teli Ma, Shijie Geng, Mengmeng Wang, Jing Shao, Jiasen Lu, Hongsheng Li, Peng Gao, Yu Qiao
مُبْدَأُ التَّعْرِيفِ الطَّوِيلِ بَسِيطٌ عَبْرِ نموذجِ الرُّؤْيَةِ واللُّغَةِ
الملخص

تُظهر العالم البصري بشكل طبيعي توزيعًا طويل الذيل (long-tailed) للتصنيفات المفتوحة، مما يفرض تحديات كبيرة على الأنظمة البصرية الحديثة. تُركّز الطرق الحالية إما على استراتيجيات إعادة توازن الفئات أو على تحسين وحدات الشبكة مباشرةً لمعالجة هذه المشكلة. ومع ذلك، تظل هذه الطرق تدرب النماذج باستخدام مجموعة محدودة من التسميات المُحددة مسبقًا، مما يحد من معلومات الإشراف المتاحة ويقيّد قابليتها للنقل إلى حالات جديدة غير مُدرَّسة. وقد ساهمت التطورات الحديثة في التدريب المسبق البصري-اللغوي على نطاق واسع في إظهار طريق جديد لتمييز الصور. وبفضل الإشراف المفتوح النطاق (open-vocabulary)، تتعلم النماذج المُدرّبة مسبقًا باستخدام التماثل البصري-اللغوي تمثيلات متعددة الوسائط قوية، والتي تُعد واعدة في التعامل مع نقص البيانات ومفاهيم غير مُدرَّسة. من خلال حساب التشابه الدلالي بين المدخلات البصرية والنصية، يتم تحويل مهمة التمييز البصري إلى مشكلة مطابقة بين البصر واللغة. مستوحاة من هذا المفهوم، نُقدّم نموذج BALLAD لاستغلال النماذج البصرية-اللغوية المُدرّبة مسبقًا باستخدام التماثل في التمييز طويل الذيل. نبدأ بمواصلة تدريب النواة البصرية-اللغوية باستخدام التعلم التماثلي على مجموعة بيانات مستهدفة طويلة الذيل محددة. ثم نثبّت النواة ونستخدم طبقة مُعدّلة إضافية (adapter layer) لتعزيز تمثيلات الفئات في الذيل (tail classes) باستخدام عينات تدريب متوازنة تم بناؤها باستخدام استراتيجيات إعادة أخذ العينات. أُجريت تجارب واسعة على ثلاث معايير شهيرة للتعرف طويل الذيل. وأظهرت النتائج أن نهجنا البسيط والفعّال يحقق أفضل أداء مُسجّل حتى الآن، ويتفوّق على النماذج التنافسية بفارق كبير. تم إتاحة الشيفرة المصدرية على الرابط: https://github.com/gaopengcuhk/BALLAD.

مُبْدَأُ التَّعْرِيفِ الطَّوِيلِ بَسِيطٌ عَبْرِ نموذجِ الرُّؤْيَةِ واللُّغَةِ | أحدث الأوراق البحثية | HyperAI