Command Palette
Search for a command to run...
نماذج اللغة الكبيرة متعددة الوسائط الفعّالة من خلال التقطيع المتسق التدريجي

الملخص
تستهلك الرموز البصرية موارد حسابية كبيرة في النماذج الكبيرة متعددة الوسائط (MLLMs)، مما يؤثر بشكل كبير على كفاءتها. حاولت الدراسات الحديثة تحسين الكفاءة من خلال ضغط الرموز البصرية أثناء التدريب، إما من خلال تعديل مكونات النموذج أو عن طريق إدخال معلمات إضافية. ومع ذلك، غالبًا ما تتجاهل هذه الدراسات الصعوبة التعليمية المتزايدة الناتجة عن هذا الضغط، إذ يجد فضاء المعاملات في النموذج صعوبة في التكيف السريع مع الاضطرابات الكبيرة التي تحدث في فضاء الميزات نتيجة لضغط الرموز. في هذا العمل، نقترح تطوير نماذج MLLMs الفعالة من خلال إطار عمل تعلُّم تدريجي يُسمى "الاستخلاص التكاملي التدريجي" (EPIC). وبشكل خاص، وباستخدام تحليل الاضطرابات في فضاء الميزات الناتجة عن ضغط الرموز على مستويي الرمز (token-wise) والطبقة (layer-wise)، نقدّم على التوالي استخلاص التكامل الرمزي (token consistency distillation) واستخلاص التكامل الطبقي (layer consistency distillation)، بهدف تقليل صعوبة التدريب من خلال الاستفادة من التوجيه المقدم من نموذج معلم (teacher model) والالتزام بمسار تعلُّم تدريجي. تُظهر التجارب الواسعة الفعالية الفائقة، والمتانة، والقدرات التعميمية العالية لإطارنا المُقترح.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.