HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

نماذج اللغة الكبيرة متعددة الوسائط الفعّالة من خلال التقطيع المتسق التدريجي

نماذج اللغة الكبيرة متعددة الوسائط الفعّالة من خلال التقطيع المتسق التدريجي

الملخص

تستهلك الرموز البصرية موارد حسابية كبيرة في النماذج الكبيرة متعددة الوسائط (MLLMs)، مما يؤثر بشكل كبير على كفاءتها. حاولت الدراسات الحديثة تحسين الكفاءة من خلال ضغط الرموز البصرية أثناء التدريب، إما من خلال تعديل مكونات النموذج أو عن طريق إدخال معلمات إضافية. ومع ذلك، غالبًا ما تتجاهل هذه الدراسات الصعوبة التعليمية المتزايدة الناتجة عن هذا الضغط، إذ يجد فضاء المعاملات في النموذج صعوبة في التكيف السريع مع الاضطرابات الكبيرة التي تحدث في فضاء الميزات نتيجة لضغط الرموز. في هذا العمل، نقترح تطوير نماذج MLLMs الفعالة من خلال إطار عمل تعلُّم تدريجي يُسمى "الاستخلاص التكاملي التدريجي" (EPIC). وبشكل خاص، وباستخدام تحليل الاضطرابات في فضاء الميزات الناتجة عن ضغط الرموز على مستويي الرمز (token-wise) والطبقة (layer-wise)، نقدّم على التوالي استخلاص التكامل الرمزي (token consistency distillation) واستخلاص التكامل الطبقي (layer consistency distillation)، بهدف تقليل صعوبة التدريب من خلال الاستفادة من التوجيه المقدم من نموذج معلم (teacher model) والالتزام بمسار تعلُّم تدريجي. تُظهر التجارب الواسعة الفعالية الفائقة، والمتانة، والقدرات التعميمية العالية لإطارنا المُقترح.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نماذج اللغة الكبيرة متعددة الوسائط الفعّالة من خلال التقطيع المتسق التدريجي | الأوراق البحثية | HyperAI