HyperAIHyperAI

Command Palette

Search for a command to run...

Infinity-MM: توسعة الأداء متعدد الوسائط باستخدام بيانات تعليمية كبيرة الحجم وعالية الجودة

الملخص

حققت نماذج الرؤية واللغة (VLMs) تقدماً ملحوظاً في الآونة الأخيرة، ولكن الحجم المحدود وجودة بيانات التعليم المفتوحة المصدر تعيق أدائها مقارنة بنماذج المصادر المغلقة. في هذا البحث، نعالج هذه المشكلة من خلال تقديم مجموعة بيانات متعددة الوسائط على نطاق واسع تسمى Infinity-MM، والتي تحتوي على 40 مليون عينة وقد تم تعزيزها من خلال فلترة الجودة الصارمة وإزالة التكرارات. كما نقترح طريقة لتوليد تعليمات اصطناعية تعتمد على نماذج الرؤية واللغة المفتوحة المصدر، باستخدام شروح صور مفصلة وتوليد أسئلة متنوعة. باستخدام هذه البيانات، قمنا بتدريب نموذج يحتوي على ملياري معلمة يُدعى Aquila-VL-2B، مما أدى إلى تحقيق أفضل الأداء (SOTA) لنماذج ذات حجم مشابه. وهذا يدل على أن توسيع بيانات التعليم وتوليد البيانات الاصطناعية يمكن أن يحسنا بشكل كبير من أداء النماذج المفتوحة المصدر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp