منذ 2 أشهر

M2-Encoder: تقديم فهم ثنائي اللغة للصورة والنص من خلال التدريب المسبق على نطاق واسع وكبير بكفاءة

Qingpei Guo; Furong Xu; Hanxiao Zhang; Wang Ren; Ziping Ma; Lin Ju; Jian Wang; Jingdong Chen; Ming Yang

الملخص

النماذج الأساسية للرؤية واللغة مثل CLIP قد غيرت مجال الذكاء الاصطناعي. ومع ذلك، فإن نماذج VLM التي تدعم اللغات المتعددة، مثل الصينية والإنجليزية، تأخرت بسبب النقص النسبي في مجموعات البيانات الكبيرة المسبقة التدريب. بهدف معالجة هذا الأمر، نقدم مجموعة بيانات ثنائية اللغة (الصينية-الإنجليزية) شاملة تحت اسم BM-6B تتضمن أكثر من 6 مليارات زوج صورة-نص، وهي موجهة لتعزيز النماذج الأساسية متعددة الوسائط لفهم الصور بشكل أفضل باللغتين. للتعامل مع هذه الحجم الكبير من البيانات، نقترح طريقة جديدة للتجميع المجموعي في حساب الخسارة المقارنة بين الصورة والنص، والتي تقلل بشكل كبير من التكلفة التواصلية ومتطلبات ذاكرة GPU، مما يساعد على زيادة سرعة التدريب بنسبة 60%. قمنا بتدريب سلسلة من النماذج الأساسية الثنائية للصورة والنص على BM-6B مع قدرة فهم دقيقة محسنة، وأدى ذلك إلى إنشاء نماذج أطلق عليها اسم $M^2$-Encoders (تنطق "M-Square") والتي حددت مقاييس جديدة باللغتين في مهام الاسترجاع والتصنيف متعدد الوسائط. ومن الجدير بالذكر أن أكبر نموذج لدينا وهو $M^2$-Encoder-10B حقق دقة مرتبة أولى بلغت 88.5% على ImageNet و80.7% على ImageNet-CN في إعداد تصنيف بدون تصوير (zero-shot classification)، مما يتفوق على الأساليب الأفضل التي تم الإبلاغ عنها سابقًا بمقدار 2.2% و21.1% على التوالي. تعتبر سلسلة $M^2$-Encoders واحدة من أكثر النماذج الأساسية الثنائية للصورة والنص شمولًا حتى الآن، ولذلك سنقوم بتوفيرها للمجتمع البحثي للاستكشاف والتطوير المزيد.