HyperAIHyperAI
منذ 11 أيام

التشابه المتماثل للنماذج الأساسية البصرية-اللغوية

Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
التشابه المتماثل للنماذج الأساسية البصرية-اللغوية
الملخص

تستعرض هذه الدراسة مفهوم التكافؤ (equivariance) في نماذج الأساس البصرية-اللغوية (VLMs)، مع التركيز بشكل خاص على دالة التشابه متعددة الوسائط التي تمثل ليس فقط الهدف الرئيسي للتدريب، بل أيضًا العنصر الأساسي في دعم المهام اللاحقة. على عكس دالة التشابه الصورية-النصية الحالية التي تصنف الأزواج المتطابقة فقط على أنها متشابهة والأزواج غير المتطابقة على أنها غير متشابهة، يتطلب التكافؤ أن يتغير التشابه بدقة وفقًا للتغيرات الدلالية. هذا يمكّن نماذج VLM من التعميم بشكل أفضل على التراكيب متعددة الوسائط الدقيقة والغير مسبوقة. ومع ذلك، فإن نمذجة التكافؤ تتسم بالصعوبة نظرًا لصعوبة جمع الحقيقة الأساسية للتغيرات الدلالية. على سبيل المثال، بالنظر إلى زوج صورة-نص يتناول كلبًا، يظل غير واضح إلى أي مدى يتغير التشابه عند تغيير البكسل من "كلب" إلى "قطة". ولحل هذه المشكلة، نقترح EqSim، وهي خسارة تنظيمية يمكن حسابها بكفاءة من أي زوجين متطابقين من بيانات التدريب، وتُطبَّق بسهولة على عمليات التحسين الدقيق لاسترجاع الصورة-النص الحالية. وفي الوقت نفسه، لتحسين تشخيص التكافؤ في نماذج VLM، نقدّم معيارًا جديدًا صعبًا يُسمى EqBen. على عكس مجموعات التقييم الحالية، يُعد EqBen أول معيار يركز على "التغير البصري الأدنى" (visual-minimal change). تُظهر التجارب الواسعة نقص التكافؤ في نماذج VLM الحالية، وتحقق فعالية EqSim. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/Wangt-CN/EqBen.

التشابه المتماثل للنماذج الأساسية البصرية-اللغوية | أحدث الأوراق البحثية | HyperAI