HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

UltraMemV2: شبكات الذاكرة التي تصل إلى 120B من المعاملات مع تعلم طويل السياق متفوّق

UltraMemV2: شبكات الذاكرة التي تصل إلى 120B من المعاملات مع تعلم طويل السياق متفوّق

الملخص

بينما تحقق نماذج خليط الخبراء (Mixture of Experts) كفاءة ملحوظة من خلال تنشيط جزء فقط من المعلمات، فإنها تعاني من تكاليف عالية في الوصول إلى الذاكرة أثناء الاستدلال. وتُعدّ هياكل الذاكرة (Memory-layer architectures) بديلاً جذاباً تتميز بعدد ضئيل جدًا من عمليات الوصول إلى الذاكرة، لكن المحاولات السابقة مثل UltraMem قد وصلت فقط إلى أداء نماذج خليط الخبراء ذات خبيرين، متبعةً بفارق كبير عن التكوينات المتطورة حديثًا التي تضم ثمانية خبراء. نقدم هنا UltraMemV2، وهي هندسة مُعاد تصميمها لهيكل الذاكرة، تُغلق الفجوة الأداءية بينها وبين النماذج المتطورة. وتعتمد طريقة عملنا على خمس تحسينات رئيسية: دمج طبقات الذاكرة في كل كتلة تحويلية (Transformer block)، وتبسيط توسيع القيم باستخدام تمرير خطي واحد، واستخدام معالجة القيم المستندة إلى وحدة المعالجة التالية (FFN) من نموذج PEER، واعتماد تهيئة منهجية للمعلمات، وإعادة توازن نسب الحساب بين طبقات الذاكرة والوحدة التالية (FFN). وباستخدام تقييم واسع النطاق، نُظهر أن UltraMemV2 تحقق أداءً مساوياً لنماذج خليط الخبراء ذات الثمانية خبراء، مع نفس كمية الحساب والمعالم، لكن بتكاليف وصول إلى الذاكرة أقل بشكل كبير. وتجدر الإشارة إلى أن UltraMemV2 تُظهر أداءً متفوقًا في المهام التي تستهلك كميات كبيرة من الذاكرة، حيث تُسجّل تحسينات قدرها +1.6 نقطة في تذكر السياقات الطويلة، و+6.2 نقطة في تذكر المراحل المتعددة، و+7.9 نقطة في التعلم ضمن السياق (in-context learning). وقد قمنا بتأكيد صحة نهجنا على نطاق واسع باستخدام نماذج تصل إلى 2.5 مليار معلمة نشطة من إجمالي 120 مليار معلمة، وثبت أن كثافة التنشيط (activation density) تؤثر بشكل أكبر على الأداء مقارنةً بعدد المعلمات النادرة الإجمالي. تُسهم دراستنا في رفع أداء هياكل الذاكرة إلى مستوى مساوٍ لأفضل النماذج الحالية من خليط الخبراء، مما يُقدّم بديلاً مقنعًا لحساب النماذج النادرة بكفاءة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UltraMemV2: شبكات الذاكرة التي تصل إلى 120B من المعاملات مع تعلم طويل السياق متفوّق | الأوراق البحثية | HyperAI