HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم متعدد الوسائط الكفء من وجهة نظر متمحورة حول البيانات

Muyang He extsuperscript1,2*, Yexin Liu extsuperscript1,3*, Boya Wu extsuperscript1*, Jianhao Yuan extsuperscript4, Yueze Wang extsuperscript1, Tiejun Huang extsuperscript1,2, Bo Zhao extsuperscript1,5†

الملخص

أظهرت نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة في مهام الفهم البصري العام والاستدلال. ومع ذلك، فإن نشرها يواجه تحديًا بسبب التكاليف الحاسوبية الكبيرة سواء في التدريب أو الاستدلال، مما يحد من إمكانية الوصول إليها من قبل المجتمع البحثي الأوسع ومجتمع المستخدمين. حل مباشر هو الاستفادة من نماذج الرؤية واللغة المدربة مسبقًا الأصغر حجمًا، ولكن هذا الحل يؤدي حتماً إلى انخفاض كبير في الأداء. في هذه الورقة، نثبت إمكانية تدريب نموذج LLM متعدد الوسائط أصغر ولكنه أفضل باستخدام بيانات تدريب عالية الجودة. بشكل خاص، نقدم بوني (Bunny)، عائلة من النماذج الخفيفة MLLM مع بنية أساسية مرنة للرؤية واللغة لتعلم متعدد الوسائط بكفاءة من بيانات التدريب المختارة. تظهر التجارب أن بوني-4B/8B يتفوق على أحدث النماذج الكبيرة MLLM في العديد من المقاييس. نتوقع أن يمكن هذا العمل المجتمع بتوفير أداة مصدر مفتوح نظيفة ومرونة للاستخدام في الأبحاث والتطويرات المستقبلية. يمكن العثور على الشفرة والنماذج والبيانات في https://github.com/BAAI-DCAI/Bunny.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم متعدد الوسائط الكفء من وجهة نظر متمحورة حول البيانات | مستندات | HyperAI