HyperAIHyperAI

Command Palette

Search for a command to run...

التشابه المتماثل للنماذج الأساسية البصرية-اللغوية

Tan Wang Kevin Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang

الملخص

تستعرض هذه الدراسة مفهوم التكافؤ (equivariance) في نماذج الأساس البصرية-اللغوية (VLMs)، مع التركيز بشكل خاص على دالة التشابه متعددة الوسائط التي تمثل ليس فقط الهدف الرئيسي للتدريب، بل أيضًا العنصر الأساسي في دعم المهام اللاحقة. على عكس دالة التشابه الصورية-النصية الحالية التي تصنف الأزواج المتطابقة فقط على أنها متشابهة والأزواج غير المتطابقة على أنها غير متشابهة، يتطلب التكافؤ أن يتغير التشابه بدقة وفقًا للتغيرات الدلالية. هذا يمكّن نماذج VLM من التعميم بشكل أفضل على التراكيب متعددة الوسائط الدقيقة والغير مسبوقة. ومع ذلك، فإن نمذجة التكافؤ تتسم بالصعوبة نظرًا لصعوبة جمع الحقيقة الأساسية للتغيرات الدلالية. على سبيل المثال، بالنظر إلى زوج صورة-نص يتناول كلبًا، يظل غير واضح إلى أي مدى يتغير التشابه عند تغيير البكسل من "كلب" إلى "قطة". ولحل هذه المشكلة، نقترح EqSim، وهي خسارة تنظيمية يمكن حسابها بكفاءة من أي زوجين متطابقين من بيانات التدريب، وتُطبَّق بسهولة على عمليات التحسين الدقيق لاسترجاع الصورة-النص الحالية. وفي الوقت نفسه، لتحسين تشخيص التكافؤ في نماذج VLM، نقدّم معيارًا جديدًا صعبًا يُسمى EqBen. على عكس مجموعات التقييم الحالية، يُعد EqBen أول معيار يركز على "التغير البصري الأدنى" (visual-minimal change). تُظهر التجارب الواسعة نقص التكافؤ في نماذج VLM الحالية، وتحقق فعالية EqSim. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/Wangt-CN/EqBen.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp