الملخص

بينما تحقق نماذج خليط الخبراء (Mixture of Experts) كفاءة ملحوظة من خلال تنشيط جزء فقط من المعلمات، فإنها تعاني من تكاليف عالية في الوصول إلى الذاكرة أثناء الاستدلال. وتُعدّ هياكل الذاكرة (Memory-layer architectures) بديلاً جذاباً تتميز بعدد ضئيل جدًا من عمليات الوصول إلى الذاكرة، لكن المحاولات السابقة مثل UltraMem قد وصلت فقط إلى أداء نماذج خليط الخبراء ذات خبيرين، متبعةً بفارق كبير عن التكوينات المتطورة حديثًا التي تضم ثمانية خبراء. نقدم هنا UltraMemV2، وهي هندسة مُعاد تصميمها لهيكل الذاكرة، تُغلق الفجوة الأداءية بينها وبين النماذج المتطورة. وتعتمد طريقة عملنا على خمس تحسينات رئيسية: دمج طبقات الذاكرة في كل كتلة تحويلية (Transformer block)، وتبسيط توسيع القيم باستخدام تمرير خطي واحد، واستخدام معالجة القيم المستندة إلى وحدة المعالجة التالية (FFN) من نموذج PEER، واعتماد تهيئة منهجية للمعلمات، وإعادة توازن نسب الحساب بين طبقات الذاكرة والوحدة التالية (FFN). وباستخدام تقييم واسع النطاق، نُظهر أن UltraMemV2 تحقق أداءً مساوياً لنماذج خليط الخبراء ذات الثمانية خبراء، مع نفس كمية الحساب والمعالم، لكن بتكاليف وصول إلى الذاكرة أقل بشكل كبير. وتجدر الإشارة إلى أن UltraMemV2 تُظهر أداءً متفوقًا في المهام التي تستهلك كميات كبيرة من الذاكرة، حيث تُسجّل تحسينات قدرها +1.6 نقطة في تذكر السياقات الطويلة، و+6.2 نقطة في تذكر المراحل المتعددة، و+7.9 نقطة في التعلم ضمن السياق (in-context learning). وقد قمنا بتأكيد صحة نهجنا على نطاق واسع باستخدام نماذج تصل إلى 2.5 مليار معلمة نشطة من إجمالي 120 مليار معلمة، وثبت أن كثافة التنشيط (activation density) تؤثر بشكل أكبر على الأداء مقارنةً بعدد المعلمات النادرة الإجمالي. تُسهم دراستنا في رفع أداء هياكل الذاكرة إلى مستوى مساوٍ لأفضل النماذج الحالية من خليط الخبراء، مما يُقدّم بديلاً مقنعًا لحساب النماذج النادرة بكفاءة.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

UltraMemV2: شبكات الذاكرة التي تصل إلى 120B من المعاملات مع تعلم طويل السياق متفوّق

Zihao Huang Yu Bao Qiyang Min Siyan Chen Ran Guo Hongzhi Huang Defa Zhu Yutao Zeng Banggu Wu Xun Zhou1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UltraMemV2: شبكات الذاكرة التي تصل إلى 120B من المعاملات مع تعلم طويل السياق متفوّق

Zihao Huang Yu Bao Qiyang Min Siyan Chen Ran Guo Hongzhi Huang Defa Zhu Yutao Zeng Banggu Wu Xun Zhou1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UltraMemV2: شبكات الذاكرة التي تصل إلى 120B من المعاملات مع تعلم طويل السياق متفوّق

Zihao Huang Yu Bao Qiyang Min Siyan Chen Ran Guo Hongzhi Huang Defa Zhu Yutao Zeng Banggu Wu Xun Zhou1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zihao Huang Yu Bao Qiyang Min Siyan Chen Ran Guo Hongzhi Huang Defa Zhu Yutao Zeng Banggu Wu Xun Zhou

Zihao Huang Yu Bao Qiyang Min Siyan Chen Ran Guo Hongzhi Huang Defa Zhu Yutao Zeng Banggu Wu Xun Zhou

Zihao Huang Yu Bao Qiyang Min Siyan Chen Ran Guo Hongzhi Huang Defa Zhu Yutao Zeng Banggu Wu Xun Zhou