HyperAIHyperAI

Command Palette

Search for a command to run...

قياس التقدم في الفهم الدقيق للرؤية واللغة

Emanuele Bugliarello Laurent Sartran Aishwarya Agrawal Lisa Anne Hendricks Aida Nematzadeh

الملخص

بينما ساهمت عملية التدريب المسبق على بيانات صورية-نصية ضخمة من الويب في تسريع التقدم في العديد من المهام المرتبطة بالرؤية واللغة (V&L)، أظهرت الدراسات الحديثة أن النماذج المُدرَّبة مسبقًا تعاني من نقص في الفهم الدقيق، مثل القدرة على التعرف على العلاقات، والأفعال، والأرقام داخل الصور. وقد أدى هذا إلى ازدياد الاهتمام في المجتمع العلمي بتطوير معايير جديدة أو نماذج جديدة تُعزز هذه القدرات. وللتمكن من فهم وقياس التقدم في هذا الاتجاه بشكل أفضل، قمنا بتحليل أربع نماذج تنافسية في مجال V&L على أربع معايير دقيقة. ومن خلال تحليلنا، وجدنا أن نموذج X-VLM (Zeng et al., 2022) يتفوق باستمرار على النماذج الأخرى، وأن الابتكارات في نمذجة النموذج يمكن أن تؤثر على الأداء أكثر من مجرد توسيع نطاق بيانات الويب، التي قد تؤدي أحيانًا إلى تدهور الأداء. وبتحليل أعمق لنموذج X-VLM، أبرزنا أهمية كل من الدوال الخسارة الجديدة ومصادر البيانات الغنية في تعلُّم المهارات الدقيقة. وأخيرًا، قمنا بفحص ديناميكيات التدريب، ووجدنا أن الأداء يبلغ ذروته مبكرًا في بعض المهام، أو يشهد تقلبات كبيرة، دون أن يتحقق التقارب أبدًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
قياس التقدم في الفهم الدقيق للرؤية واللغة | مستندات | HyperAI