HyperAIHyperAI
منذ 2 أشهر

ما الذي يهم عند بناء نماذج الرؤية واللغة؟

Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
ما الذي يهم عند بناء نماذج الرؤية واللغة؟
الملخص

الاهتمام المتزايد بـ نماذج الرؤية واللغة (VLMs) يعود إلى التحسينات في النماذج اللغوية الكبيرة ومتغيرات الرؤية. على الرغم من وجود العديد من الدراسات حول هذا الموضوع، نلاحظ أن القرارات الحرجة المتعلقة بتصميم هذه النماذج غالباً ما لا تُبرر. نعتقد أن هذه القرارات غير المدعومة تعوق التقدم في المجال من خلال جعل تحديد الخيارات التي تحسن أداء النموذج أمرًا صعبًا. لمعالجة هذه المشكلة، أجرينا تجارب واسعة النطاق حول النماذج المدربة مسبقًا، واختيار الهندسة، والبيانات، وطرق التدريب. تتضمن ملخص نتائجنا تطوير Idefics2، وهو نموذج أساسي فعال للرؤية واللغة يحتوي على 8 مليارات معامل. يحقق Idefics2 أفضل الأداء ضمن فئته الحجمية في مجموعة متنوعة من المقاييس متعددة الوسائط، ويكون غالباً مكافئاً للنماذج الأكبر حجماً بأربع مرات. لقد أطلقنا النموذج (الأساسي، الموجه بالتعليمات، والمحادثة) بالإضافة إلى قواعد البيانات التي تم إنشاؤها لتدريبه.

ما الذي يهم عند بناء نماذج الرؤية واللغة؟ | أحدث الأوراق البحثية | HyperAI