HyperAIHyperAI

Command Palette

Search for a command to run...

ما الذي يهم عند بناء نماذج الرؤية واللغة؟

Hugo Laurençon Léo Tronchon Matthieu Cord Victor Sanh

الملخص

لقد دفع التطور المتسارع في نماذج اللغات الكبيرة ومحولات الرؤية إلى ازدياد الاهتمام بالنماذج البصرية-اللغوية (VLMs). وعلى الرغم من كثرة الأدبيات المنشورة حول هذا الموضوع، نلاحظ أن قرارات جوهرية تتعلق بتصميم نماذج VLMs لا تُبرَّر غالبًا. ونُقدِّم رأيًا مفاده أن هذه القرارات غير المدعومة تُعَقِّد تقدُّم المجال، إذ تُصعِّب تحديد أي خيارات تُحسِّن أداء النموذج. وللتصدي لهذا التحدي، نُنفِّذ تجارب واسعة النطاق تتناول النماذج المُدرَّبة مسبقًا، واختيار البنية المعمارية، وبيانات التدريب، وطرق التدريب. وتشمل مُنتَجات تجميع نتائجنا تطوير نموذج Idefics2، وهو نموذج أساسي فعّال لنموذج VLM يحتوي على 8 مليارات معلمة. ويُحقِّق Idefics2 أداءً مُتَقدِّمًا في فئته من حيث الحجم على مختلف معايير التقييم متعددة الوسائط، وغالبًا ما يُوازِن نماذج تُضاعف حجمه أربع مرات. ونُطلِع على النموذج (الأساسي، المُوجَّه، والدردشة) إلى جانب مجموعات البيانات التي أُعدَّت لتدريبه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp