HyperAIHyperAI

Command Palette

Search for a command to run...

M2-Encoder: تقديم فهم ثنائي اللغة للصورة والنص من خلال التدريب المسبق على نطاق واسع وكبير بكفاءة

Qingpei Guo* Furong Xu* Hanxiao Zhang* Wang Ren* Ziping Ma Lin Ju Jian Wang Jingdong Chen Ming Yang†

الملخص

النماذج الأساسية للرؤية واللغة مثل CLIP قد غيرت مجال الذكاء الاصطناعي. ومع ذلك، فإن نماذج VLM التي تدعم اللغات المتعددة، مثل الصينية والإنجليزية، تأخرت بسبب النقص النسبي في مجموعات البيانات الكبيرة المسبقة التدريب. بهدف معالجة هذا الأمر، نقدم مجموعة بيانات ثنائية اللغة (الصينية-الإنجليزية) شاملة تحت اسم BM-6B تتضمن أكثر من 6 مليارات زوج صورة-نص، وهي موجهة لتعزيز النماذج الأساسية متعددة الوسائط لفهم الصور بشكل أفضل باللغتين. للتعامل مع هذه الحجم الكبير من البيانات، نقترح طريقة جديدة للتجميع المجموعي في حساب الخسارة المقارنة بين الصورة والنص، والتي تقلل بشكل كبير من التكلفة التواصلية ومتطلبات ذاكرة GPU، مما يساعد على زيادة سرعة التدريب بنسبة 60%. قمنا بتدريب سلسلة من النماذج الأساسية الثنائية للصورة والنص على BM-6B مع قدرة فهم دقيقة محسنة، وأدى ذلك إلى إنشاء نماذج أطلق عليها اسم M2M^2M2-Encoders (تنطق "M-Square") والتي حددت مقاييس جديدة باللغتين في مهام الاسترجاع والتصنيف متعدد الوسائط. ومن الجدير بالذكر أن أكبر نموذج لدينا وهو M2M^2M2-Encoder-10B حقق دقة مرتبة أولى بلغت 88.5% على ImageNet و80.7% على ImageNet-CN في إعداد تصنيف بدون تصوير (zero-shot classification)، مما يتفوق على الأساليب الأفضل التي تم الإبلاغ عنها سابقًا بمقدار 2.2% و21.1% على التوالي. تعتبر سلسلة M2M^2M2-Encoders واحدة من أكثر النماذج الأساسية الثنائية للصورة والنص شمولًا حتى الآن، ولذلك سنقوم بتوفيرها للمجتمع البحثي للاستكشاف والتطوير المزيد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp