Command Palette
Search for a command to run...
تقرير فني عن SpikingBrain: نماذج كبيرة مستوحاة من الدماغ العصبي من نوع Spiking
Yuqi Pan Yupeng Feng Jinghao Zhuang Siyu Ding et al

الملخص
تواجه النماذج اللغوية الكبيرة المستندة إلى مُحَوِّلات (Transformer) الرئيسية عوائق كبيرة في الكفاءة: حيث يتنامى حساب التدريب بشكل تربيعي بالنسبة لطول التسلسل، بينما يزداد استهلاك الذاكرة أثناء الاستدلال بشكل خطي، مما يحد من قدرة المعالجة على السياقات الطويلة. كما تواجه بناء النماذج الكبيرة على منصات غير NVIDIA تحديات في ضمان التدريب المستقر والفعال. ولحل هذه التحديات، نقدّم "سبايكينغ براين" (SpikingBrain)، وهي عائلة من النماذج المستوحاة من الدماغ، مصممة لتحقيق تدريب واستدلال فعّالين للسياقات الطويلة. تعتمد "سبايكينغ براين" على منصة وحدات معالجة الرسوميات (MetaX) وتركز على ثلاث جوانب رئيسية: (1) بنية النموذج: هندسة انتباه خطية وهجينة خطية تتضمن خلايا عصبية مُتغيرة التوقيت (Adaptive Spiking Neurons)؛ (2) تحسينات خوارزمية: خط أنابيب تدريب فعّال مبني على التحويل، ونظام مخصص لرمزية النبضات (Spike Coding Framework)؛ (3) هندسة نظام: أطر تدريب مخصصة، ومكتبات مشغلات (Operator Libraries)، واستراتيجيات توازي مصممة خصيصًا لملائمة هاردوير MetaX.باستخدام هذه التقنيات، نطوّر نموذجين: "سبايكينغ براين-7B"، وهو نموذج لغوي خطي، و"سبايكينغ براين-76B"، وهو نموذج لغوي هجين خطي مُعتمِد على معمارية التعلم الموزع (MoE). وتُظهر هذه النماذج إمكانية تطوير نماذج لغوية كبيرة على منصات غير NVIDIA. وتُحقق "سبايكينغ براين" أداءً مماثلاً للنماذج الأساسية المفتوحة المصدر المستندة إلى مُحَوِّلات (Transformer)، مع استخدام ما يقارب 150 مليار رمز فقط لمرحلة التدريب المستمر. كما تُحسّن هذه النماذج بشكل كبير كفاءة التدريب على التسلسلات الطويلة، وتُقدّم استدلالًا يتميز بذاكرة ثابتة (أو جزئيًا ثابتة) وسلوكًا مُستنِدًا إلى النبضات (Event-driven Spiking Behavior). على سبيل المثال، تحقق "سبايكينغ براين-7B" زيادة في السرعة تزيد عن 100 مرة في زمن ظهور أول رمز (Time to First Token) عند معالجة تسلسلات بطول 4 ملايين رمز. ويظل التدريب مستقرًا لأيام عديدة على مئات وحدات معالجة الرسوميات MetaX C550، حيث تصل النموذج البالغ 7B إلى نسبة استخدام فلوبس النموذج (Model FLOPs Utilization) البالغة 23.4%. كما تحقق المخطط النبضي المقترح كفاءة تشغيلية تصل إلى 69.15% من الندرة (Sparsity)، مما يمكّن من تشغيل منخفض الطاقة. وبشكل عام، تُظهر هذه الدراسة إمكانات الآليات المستوحاة من الدماغ في دفع تطور الجيل التالي من تصميم النماذج الكبيرة بكفاءة وقابلية للتوسع.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.