منذ 6 أشهر

الملخص

تستعرض هذه الدراسة مفهوم التكافؤ (equivariance) في نماذج الأساس البصرية-اللغوية (VLMs)، مع التركيز بشكل خاص على دالة التشابه متعددة الوسائط التي تمثل ليس فقط الهدف الرئيسي للتدريب، بل أيضًا العنصر الأساسي في دعم المهام اللاحقة. على عكس دالة التشابه الصورية-النصية الحالية التي تصنف الأزواج المتطابقة فقط على أنها متشابهة والأزواج غير المتطابقة على أنها غير متشابهة، يتطلب التكافؤ أن يتغير التشابه بدقة وفقًا للتغيرات الدلالية. هذا يمكّن نماذج VLM من التعميم بشكل أفضل على التراكيب متعددة الوسائط الدقيقة والغير مسبوقة. ومع ذلك، فإن نمذجة التكافؤ تتسم بالصعوبة نظرًا لصعوبة جمع الحقيقة الأساسية للتغيرات الدلالية. على سبيل المثال، بالنظر إلى زوج صورة-نص يتناول كلبًا، يظل غير واضح إلى أي مدى يتغير التشابه عند تغيير البكسل من "كلب" إلى "قطة". ولحل هذه المشكلة، نقترح EqSim، وهي خسارة تنظيمية يمكن حسابها بكفاءة من أي زوجين متطابقين من بيانات التدريب، وتُطبَّق بسهولة على عمليات التحسين الدقيق لاسترجاع الصورة-النص الحالية. وفي الوقت نفسه، لتحسين تشخيص التكافؤ في نماذج VLM، نقدّم معيارًا جديدًا صعبًا يُسمى EqBen. على عكس مجموعات التقييم الحالية، يُعد EqBen أول معيار يركز على "التغير البصري الأدنى" (visual-minimal change). تُظهر التجارب الواسعة نقص التكافؤ في نماذج VLM الحالية، وتحقق فعالية EqSim. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/Wangt-CN/EqBen.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Tan Wang Kevin Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Tan Wang Kevin Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Tan Wang Kevin Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التشابه المتماثل للنماذج الأساسية البصرية-اللغوية

Tan Wang Kevin Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التشابه المتماثل للنماذج الأساسية البصرية-اللغوية

Tan Wang Kevin Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التشابه المتماثل للنماذج الأساسية البصرية-اللغوية

Tan Wang Kevin Lin Linjie Li Chung-Ching Lin Zhengyuan Yang Hanwang Zhang Zicheng Liu Lijuan Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters