Command Palette
Search for a command to run...
ميتور: تجوّل مبنية على مامبا للأساس المنطقي للنماذج الكبيرة للغة والرؤية
Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

الملخص
شهد تطور نماذج اللغة والرؤية الكبيرة (LLVMs) تقدماً سريعاً بفضل التقدم المحرز في تدريب التعليم البصري. ومؤخراً، قام المطورون المفتوحون لـ LLVMs بجمع مجموعات بيانات عالية الجودة لتدريب التعليم البصري، واستخدموا مُشَفرات بصرية إضافية أو نماذج متعددة لمعالجة الرؤية الحاسوبية بهدف تضييق الفجوة في الأداء مقارنة بالنماذج المغلقة القوية. ويرجع هذا التقدم إلى الحاجة إلى معلومات متعددة الأوجه لتمكين القدرات المتنوعة، بما في ذلك الفهم الأساسي للصور، والمعرفة الواقعية بالمعارف الشائعة والمعاني غير المادية (مثل الرسوم البيانية، والخرائط، والرموز، والعلامات، ومسائل الرياضيات)، والإجراءات التدريجية اللازمة لحل الأسئلة المعقدة. استناداً إلى هذه المعلومات المتعددة الأوجه، نقدّم نموذجاً جديداً فعّالاً لـ LLVMs يُسمى "مُتَرَقِّب المُفَسَّر (Meteor)"، المستند إلى بنية Mamba، والذي يستفيد من التفسيرات المتعددة الأوجه لتعزيز قدرات الفهم والإجابة. ولدمج التفسيرات الطويلة التي تحتوي على كم كبير من المعلومات، نستخدم بنية Mamba التي تتمتع بقدرة على معالجة البيانات التسلسلية بتعقيد زمني خطي. كما نقدّم مفهوماً جديداً يُعرف بـ "مُتَرَقِّب المُفَسَّر"، الذي يُسهّل تضمين التفسيرات بكفاءة. وبعدها، يتم تدريب النموذج الأساسي متعدد الوسائط (MLM) على إنتاج الإجابات بمساعدة التفسيرات. ومن خلال هذه الخطوات، تحقق "Meteor" تحسّنات كبيرة في أداء نماذج اللغة والرؤية عبر عدة معايير تقييم تتطلب مهارات متنوعة، دون الحاجة إلى زيادة حجم النموذج، أو استخدام مُشَفرات بصرية إضافية أو نماذج معالجة الرؤية الحاسوبية.
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| visual-question-answering-on-mm-vet | Meteor | GPT-4 score: 57.3 Params: 7B |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.