قياس التقدم في الفهم الدقيق للرؤية واللغة

بينما ساهمت عملية التدريب المسبق على بيانات صورية-نصية ضخمة من الويب في تسريع التقدم في العديد من المهام المرتبطة بالرؤية واللغة (V&L)، أظهرت الدراسات الحديثة أن النماذج المُدرَّبة مسبقًا تعاني من نقص في الفهم الدقيق، مثل القدرة على التعرف على العلاقات، والأفعال، والأرقام داخل الصور. وقد أدى هذا إلى ازدياد الاهتمام في المجتمع العلمي بتطوير معايير جديدة أو نماذج جديدة تُعزز هذه القدرات. وللتمكن من فهم وقياس التقدم في هذا الاتجاه بشكل أفضل، قمنا بتحليل أربع نماذج تنافسية في مجال V&L على أربع معايير دقيقة. ومن خلال تحليلنا، وجدنا أن نموذج X-VLM (Zeng et al., 2022) يتفوق باستمرار على النماذج الأخرى، وأن الابتكارات في نمذجة النموذج يمكن أن تؤثر على الأداء أكثر من مجرد توسيع نطاق بيانات الويب، التي قد تؤدي أحيانًا إلى تدهور الأداء. وبتحليل أعمق لنموذج X-VLM، أبرزنا أهمية كل من الدوال الخسارة الجديدة ومصادر البيانات الغنية في تعلُّم المهارات الدقيقة. وأخيرًا، قمنا بفحص ديناميكيات التدريب، ووجدنا أن الأداء يبلغ ذروته مبكرًا في بعض المهام، أو يشهد تقلبات كبيرة، دون أن يتحقق التقارب أبدًا.