HyperAIHyperAI
منذ 2 أشهر

تعلم نماذج بصرية مخصصة باستخدام المعرفة المعززة بالاسترجاع

Haotian Liu; Kilho Son; Jianwei Yang; Ce Liu; Jianfeng Gao; Yong Jae Lee; Chunyuan Li
تعلم نماذج بصرية مخصصة باستخدام المعرفة المعززة بالاسترجاع
الملخص

نماذج التعلم المقارن بين الصور والنصوص مثل CLIP قد أظهرت قدرة قوية على نقل المهام. يتم تحقيق الجودة العالية والاستخدام الواسع لهذه النماذج البصرية من خلال عملية جمع بيانات على نطاق الويب لضمان تغطية مفاهيم واسعة، ثم التدريب الأولي المكلف لإدخال جميع المعرفة في أوزان النموذج. كخيار بديل، نقترح إطار REACT (REtrieval-Augmented CusTomization)، وهو إطار للحصول على المعرفة ذات الصلة من الويب لبناء نماذج بصرية مخصصة لأنظمة الهدف. نستعيد أزواج الصور والنصوص الأكثر صلة (حوالي 3% من بيانات التدريب الأولي لـ CLIP) من قاعدة البيانات على نطاق الويب كمعرفة خارجية، ونقترح تخصيص النموذج عن طريق تدريب كتل جديدة فقط مع الحفاظ على جميع الأوزان الأصلية متجمدة. يتم إثبات فعالية REACT من خلال تجارب واسعة النطاق على مهام التصنيف والاسترجاع والكشف والتقطيع، بما في ذلك الإعدادات بدون طلقات وقليل الطلقات وكامل الطلقات. بشكل خاص، في مهمة التصنيف بدون طلقات، مقارنةً بـ CLIP، يحقق تحسينًا يصل إلى 5.4% في ImageNet و3.7% في معيار ELEVATER (20 مجموعة بيانات).