HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 أشهر

ميتور: تجوّل مبنية على مامبا للأساس المنطقي للنماذج الكبيرة للغة والرؤية

Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

ميتور: تجوّل مبنية على مامبا للأساس المنطقي للنماذج الكبيرة للغة والرؤية

الملخص

شهد تطور نماذج اللغة والرؤية الكبيرة (LLVMs) تقدماً سريعاً بفضل التقدم المحرز في تدريب التعليم البصري. ومؤخراً، قام المطورون المفتوحون لـ LLVMs بجمع مجموعات بيانات عالية الجودة لتدريب التعليم البصري، واستخدموا مُشَفرات بصرية إضافية أو نماذج متعددة لمعالجة الرؤية الحاسوبية بهدف تضييق الفجوة في الأداء مقارنة بالنماذج المغلقة القوية. ويرجع هذا التقدم إلى الحاجة إلى معلومات متعددة الأوجه لتمكين القدرات المتنوعة، بما في ذلك الفهم الأساسي للصور، والمعرفة الواقعية بالمعارف الشائعة والمعاني غير المادية (مثل الرسوم البيانية، والخرائط، والرموز، والعلامات، ومسائل الرياضيات)، والإجراءات التدريجية اللازمة لحل الأسئلة المعقدة. استناداً إلى هذه المعلومات المتعددة الأوجه، نقدّم نموذجاً جديداً فعّالاً لـ LLVMs يُسمى "مُتَرَقِّب المُفَسَّر (Meteor)"، المستند إلى بنية Mamba، والذي يستفيد من التفسيرات المتعددة الأوجه لتعزيز قدرات الفهم والإجابة. ولدمج التفسيرات الطويلة التي تحتوي على كم كبير من المعلومات، نستخدم بنية Mamba التي تتمتع بقدرة على معالجة البيانات التسلسلية بتعقيد زمني خطي. كما نقدّم مفهوماً جديداً يُعرف بـ "مُتَرَقِّب المُفَسَّر"، الذي يُسهّل تضمين التفسيرات بكفاءة. وبعدها، يتم تدريب النموذج الأساسي متعدد الوسائط (MLM) على إنتاج الإجابات بمساعدة التفسيرات. ومن خلال هذه الخطوات، تحقق "Meteor" تحسّنات كبيرة في أداء نماذج اللغة والرؤية عبر عدة معايير تقييم تتطلب مهارات متنوعة، دون الحاجة إلى زيادة حجم النموذج، أو استخدام مُشَفرات بصرية إضافية أو نماذج معالجة الرؤية الحاسوبية.

مستودعات الكود

byungkwanlee/meteor
رسمي
pytorch
مذكور في GitHub

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-question-answering-on-mm-vetMeteor
GPT-4 score: 57.3
Params: 7B

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ميتور: تجوّل مبنية على مامبا للأساس المنطقي للنماذج الكبيرة للغة والرؤية | الأوراق البحثية | HyperAI