HyperAIHyperAI

Command Palette

Search for a command to run...

مونو-إنترنVL-1.5: نحو نماذج لغوية متعددة الوسائط أرخص وأسرع بشكل مونوليتيكي

الملخص

يركز هذا البحث على نماذج اللغة الكبيرة متعددة الوسائط المونوليثية (Monolithic Multimodal Large Language Models - MLLMs)، والتي تدمج الترميز البصري وفك شفرة اللغة في نموذج واحد. تعاني الهياكل والاستراتيجيات الحالية للتدريب المسبق لـ MLLMs المونوليثية غالبًا من عدم استقرار التحسين والنسيان الكارثي. لمعالجة هذه التحديات، فإن الفكرة الرئيسية لدينا هي غرس فضاء معلمة بصري جديد في نموذج لغة كبير تم تدريبه مسبقًا، مما يمكّن من تعلم مستقر للمعرفة البصرية من البيانات الضوضائية عبر ضبط الدلتا. بناءً على هذا المبدأ، نقدم أولاً Mono-InternVL، وهو نموذج MLLM مونوليثي متقدم يدمج مجموعة من الخبراء البصريين من خلال هندسة خليط متعدد الوسائط (Multimodal Mixture-of-Experts Architecture). بالإضافة إلى ذلك، صممنا طريقة تدريب بصري ذاتي مبتكرة (Endogenous Visual Pre-training - EViP) لمونو-إنترنVL لتعظيم قدراته البصرية عبر التعلم التدريجي. يحقق Mono-InternVL أداءً تنافسيًا مقابل النماذج MLLM الحالية ولكنه يؤدي أيضًا إلى زيادة نسبية في تكلفة البيانات. لذلك، نقدم أيضًا Mono-InternVL-1.5، وهو نموذج MLLM مونوليثي أرخص وأقوى مجهز بـ EViP المحسن (EViP++). يُدخل EViP++ خبراء انتباه بصري إضافيين إلى Mono-InternVL-1.5 ويعيد تنظيم عملية التدريب المسبق بطريقة فعالة. أثناء الاستدلال، يتضمن حزمة CUDA مدمجة لتسريع عمليات MoE الخاصة به. بهذه التصميمات، يتمكن Mono-InternVL-1.5 من تقليص تكاليف التدريب والاستدلال بشكل كبير مع الاحتفاظ بأداء تنافسي مع Mono-InternVL. لتقييم منهجيتنا، أجرينا تجارب واسعة النطاق على 15 مقاييس أداء. بينت النتائج أن Mono-InternVL يتفوق على النماذج MLLM المونوليثية الحالية في 12 من أصل 15 مقاييس الأداء، مثل تحقيق تحسن بمقدار 114 نقطة على OCRBench بالمقارنة مع Emu3. بالمقارنة مع نظيره القابل للتركيب، أي InternVL-1.5، يحقق Mono-InternVL-1.5 أداءً متعدد الوسائط مشابهًا بينما يقلل من زمن الاستجابة الأولي بنسبة تصل إلى 69٪. تم إطلاق الشفرة والنماذج على https://github.com/OpenGVLab/Mono-InternVL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مونو-إنترنVL-1.5: نحو نماذج لغوية متعددة الوسائط أرخص وأسرع بشكل مونوليتيكي | مستندات | HyperAI