HyperAIHyperAI
منذ 3 أشهر

وهم الإخفاء للنماذج اللغوية والبصرية الكبيرة

Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro
وهم الإخفاء للنماذج اللغوية والبصرية الكبيرة
الملخص

لقد ساهم نجاح عملية ضبط التعليم البصري في تسريع تطور النماذج الكبيرة للغة والرؤية (LLVMs). ووفقًا لقوانين التوسع في النماذج الكبيرة للغة المُدرَّبة على التعليم (LLMs)، فقد زادت نماذج LLVM حجمها بشكل أكبر، لتصل إلى 26B و34B وحتى 80B من المُعلمات. وعلى الرغم من أن هذا الزيادة في الحجم قد أنتجت مكاسب كبيرة في الأداء، إلا أنها تتطلب موارد هاردويرية أكثر بكثير خلال التدريب والاستنتاج. وبالتالي، هناك حاجة طبيعية قوية إلى نماذج LLVM فعالة تحقق أداءً يشبه النماذج الكبيرة مع الحفاظ على حجمها الأصغر. ولتحقيق هذه الحاجة، نقدم عائلة جديدة من نماذج LLVM الفعالة، باسم "فانتوم" (Phantom)، بحجم نموذج يبلغ 0.5B و1.8B و3.8B و7B مُعلمة، والتي تُعزز بشكل كبير قدرات التعلم ضمن هيكل محدود. من خلال زيادة مؤقتة في البُعد الخفي المُخفي أثناء عملية الانتباه الذاتي متعدد الرؤوس (MHSA)، نجعل نماذج LLVM قادرة على استيعاب وفهم كم كبير من المعرفة البصرية-اللغوية في الفضاء المُخفي، دون زيادة كبيرة في الحجم الفعلي للنموذج. ولتحقيق أقصى استفادة من هذه الميزة، نقدّم تقنية "تحسين فانتوم" (Phantom Optimization - PO)، التي تدمج بين التدريب المُراقب التتابعي (SFT) والتمييز المباشر للترغيب (DPO)-مثل المفهوم، مما يُسهم في التمسك بالإجابات الصحيحة وحذف الإجابات الخاطئة والغامضة. ويتفوق فانتوم على العديد من نماذج LLVM المفتوحة والمغلقة المصدر الأكبر حجمًا، مما يضعه كحل رائد في مجال نماذج LLVM الفعالة.