CREPE: هل يمكن للنماذج الأساسية متعددة الوسائط البصرية واللغوية التفكير بشكل تجميعي؟

الخاصية الأساسية المشتركة بين الرؤية البشرية واللغة الطبيعية هي طبيعتهما التركيبية. ومع ذلك، وعلى الرغم من التحسن في الأداء الناتج عن التدريب المسبق الكبير على الصور واللغة، نلاحظ أنه: عبر 7 هياكل تم تدريبها باستخدام 4 خوارزميات على مجموعات بيانات ضخمة، تواجه هذه النماذج صعوبة في التعامل مع التراكيب. لبلوغ هذا الاستنتاج، نقدم معيارًا جديدًا لتقييم التراكب، يُسمى CREPE، والذي يقيس جوانب مهمة لطبيعة التراكب أُبرزت في الأدبيات العلمية في مجال علم النفس المعرفي: التماسك والإنتاجية. لقياس التماسك، يتضمن CREPE مجموعة اختبار تحتوي على أكثر من 370 ألف زوج صورة-نص، بالإضافة إلى ثلاثة تقسيمات مختلفة بين البيانات المرئية والنصوص التي شوهدت والبيانات التي لم تُرَ. تم تصميم هذه التقسيمات لاختبار النماذج المدربة على ثلاث مجموعات بيانات تدريب شهيرة: CC-12M وYFCC-15M وLAION-400M. كما نُشِئَت 325 ألف و316 ألف و309 آلاف وصف خاطئ صعب (hard negative captions) لجزء من هذه الأزواج. أما لقياس الإنتاجية، فيحتوي CREPE على 17 ألف زوج صورة-نص بتسعة مستويات مختلفة من التعقيد، بالإضافة إلى 183 ألف وصف خاطئ صعب تضم أشكالًا تجريبية تشمل العناصر الأساسية (atomic)، وتبادل المكونات (swapping)، ونفي المكونات (negation). تم إنشاء هذه المجموعات من خلال إعادة استخدام رسومات المشاهد من Visual Genome ووصف المناطق، مع تطبيق قوالب مصممة يدويًا ونموذج GPT-3. بالنسبة للتماسك، نجد أن أداء النموذج ينخفض باستمرار عندما تهيمن التراكيب الجديدة على مجموعة الاسترجاع، حيث تنخفض دقة الاسترجاع (Recall@1) بنسبة تصل إلى 12%. أما بالنسبة للإنتاجية، فإن نجاح الاسترجاع ينخفض مع زيادة التعقيد، ويقترب غالبًا من المستوى العشوائي عند المستويات العالية من التعقيد. وتحقق هذه النتائج بغض النظر عن حجم النموذج أو حجم مجموعة البيانات المستخدمة في التدريب.