نماذج الرؤية النصية التباينية المعززة بالاسترجاع

تُشكِّل نماذج الصور النصية التباينية مثل CLIP (كليب) الحجارة الأساسية لعديد من الأنظمة الرائدة. بينما تتفوق هذه النماذج في التعرف على المفاهيم العامة الشائعة، فإنها لا تزال تعاني صعوبات في التعامل مع الكيانات الدقيقة التي تكون نادرة أو حتى غائبة عن مجموعة البيانات الأولية. لذلك، كان أحد العناصر الرئيسية لنجاحها هو استخدام بيانات أولية معدة بعناية وواسعة النطاق تهدف إلى توسيع مجموعة المفاهيم التي يمكن أن تتذكرها خلال مرحلة التدريب الأولي. في هذا البحث، نستكشف بديلاً لترميز المعرفة الدقيقة مباشرة في معلمات النموذج: بدلاً من ذلك، نقوم بتدريب النموذج على استرجاع هذه المعرفة من ذاكرة خارجية. تحديداً، نقترح تزويد النماذج البصرية-النصية القائمة بالقدرة على تحسين غرزها (Embedding) باستخدام المعلومات المسترجعة عبر الأوضاع من الذاكرة أثناء الاستدلال، مما يحسن بشكل كبير التنبؤات الفورية للنموذج. بشكل ملحوظ، نظهر أنه يمكن تحقيق ذلك باستخدام محول دمج خفيف الوزن ذو طبقة واحدة فوق CLIP (كليب) المتجمد. تؤكد تجاربنا أن التدريب المعزز باسترجاع المعلومات (RECO) يحسن أداء CLIP (كليب) بشكل كبير في عدة مهمات دقيقة ومعقدة: على سبيل المثال، بمعدل +10.9 في مهمة سيارات ستانفورد (+10.2 في CUB-2011 و+7.3 في مقاييس OVEN الحديثة)، حيث نتفوق حتى على النماذج المحلاة الدقيقة في فئات غير مشهودة.