Command Palette
Search for a command to run...
ما الذي يهم عند بناء نماذج الرؤية واللغة؟
ما الذي يهم عند بناء نماذج الرؤية واللغة؟
Hugo Laurençon Léo Tronchon Matthieu Cord Victor Sanh
الملخص
لقد دفع التطور المتسارع في نماذج اللغات الكبيرة ومحولات الرؤية إلى ازدياد الاهتمام بالنماذج البصرية-اللغوية (VLMs). وعلى الرغم من كثرة الأدبيات المنشورة حول هذا الموضوع، نلاحظ أن قرارات جوهرية تتعلق بتصميم نماذج VLMs لا تُبرَّر غالبًا. ونُقدِّم رأيًا مفاده أن هذه القرارات غير المدعومة تُعَقِّد تقدُّم المجال، إذ تُصعِّب تحديد أي خيارات تُحسِّن أداء النموذج. وللتصدي لهذا التحدي، نُنفِّذ تجارب واسعة النطاق تتناول النماذج المُدرَّبة مسبقًا، واختيار البنية المعمارية، وبيانات التدريب، وطرق التدريب. وتشمل مُنتَجات تجميع نتائجنا تطوير نموذج Idefics2، وهو نموذج أساسي فعّال لنموذج VLM يحتوي على 8 مليارات معلمة. ويُحقِّق Idefics2 أداءً مُتَقدِّمًا في فئته من حيث الحجم على مختلف معايير التقييم متعددة الوسائط، وغالبًا ما يُوازِن نماذج تُضاعف حجمه أربع مرات. ونُطلِع على النموذج (الأساسي، المُوجَّه، والدردشة) إلى جانب مجموعات البيانات التي أُعدَّت لتدريبه.