HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 12 أيام

كل انتباه يهم: معمارية هجينة فعّالة للاستدلال بسياق طويل

كل انتباه يهم: معمارية هجينة فعّالة للاستدلال بسياق طويل

الملخص

في هذا التقرير التقني، نقدّم سلسلة نماذج Ring-linear، وتشمل بشكل خاص نموذج Ring-mini-linear-2.0 ونماذج Ring-flash-linear-2.0. يحتوي نموذج Ring-mini-linear-2.0 على 16 مليار معلمة و957 مليون تنشيط، بينما يضم نموذج Ring-flash-linear-2.0 104 مليار معلمة و6.1 مليار تنشيط. و adopts نموذجَيْن هذين بنموذج مُختلط (هَيْبْرِيدِي) يُدمج بشكل فعّال بين الانتباه الخطي (linear attention) والانتباه المُتَنَوِّع (softmax attention)، مما يُقلل بشكل كبير من تكاليف إدخال/إخراج البيانات (I/O) والعبء الحسابي في سيناريوهات الاستدلال بسياق طويل. مقارنةً بنموذج كثيف (dense) يحتوي على 32 مليار معلمة، فإن هذه السلسلة تخفض تكاليف الاستدلال إلى 1/10، كما تقلل التكاليف بنحو أكثر من 50% مقارنةً بالسلسلة الأصلية (Ring series). علاوةً على ذلك، من خلال استكشاف منهجي لنسبة التوازن بين آليات الانتباه المختلفة في البنية الهيبريدية، تم تحديد الهيكل المثالي للنموذج حاليًا. وباستغلال مكتبة المشغلات عالية الأداء المطورة ذاتيًا بـ FP8 (linghe)، تم تحسين كفاءة التدريب بشكل عام بنسبة 50%. وبفضل التماسك العالي بين مشغّلات محرك التدريب ومحرك الاستدلال، يمكن للنماذج أن تخضع لعملية تحسين مستمرة ومستقرة وفعّالة جدًا خلال مرحلة التعلم المُعزَّز (reinforcement learning)، مع الحفاظ باستمرار على أداء مُتَقدِّم (SOTA) في عدد من اختبارات الاستدلال المعقدة والصعبة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كل انتباه يهم: معمارية هجينة فعّالة للاستدلال بسياق طويل | الأوراق البحثية | HyperAI