HyperAI
منذ 18 ساعات

SmallThinker: مجموعة من نماذج اللغة الكبيرة الفعّالة المدربة أصلاً للاستخدام المحلي

Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
SmallThinker: مجموعة من نماذج اللغة الكبيرة الفعّالة المدربة أصلاً للاستخدام المحلي
الملخص

بينما تواصل نماذج لغة كبيرة الحدود (LLMs) المتقدمة تجاوز حدود القدرات، فإن تبنيها لا يزال مقتصرًا على البنية التحتية السحابية المدعومة بمحركات الرسومات (GPUs). نحن نتحدى هذا النموذج من خلال SmallThinker، وهو سلسلة من نماذج لغة كبيرة الحدود التي تم تصميمها بشكل طبيعي - وليس إعادة تكييفها - لتتناسب مع القيود الفريدة للأجهزة المحلية: قوة الحساب الضعيفة، والذاكرة المحدودة، والتخزين البطيء. على عكس الأساليب التقليدية التي تركز على تقليل حجم النماذج الموجودة المصممة للسحابة، نحن نبني SmallThinker من الصفر لينجح ضمن هذه القيود. تكمن ابتكارنا في معمارية تأخذ في الاعتبار القدرة على التوزيع، والتي تحول القيود إلى مبادئ تصميم. أولاً، نقدم بنية ثنائية المستوى تتضمن خوارزمية مزيج الخبراء (Mixture-of-Experts - MoE) ذات التفاصيل الدقيقة مع شبكات تغذية أمامية مُفصَّلة، مما يقلل بشكل كبير من متطلبات الحساب دون التضحية بقدرة النموذج. ثانيًا، لمواجهة عائق إدخال/إخراج التخزين البطيء، نصمم موجهًا مُقدَّمًا للانتباه (pre-attention router) يسمح لمحرك الاستنتاج المُصمم بسلاسة بتحميل معلمات الخبراء من التخزين أثناء حساب الانتباه، مما يخفف بشكل فعّال من تأخير التخزين الذي قد يُضعف الأداء في الاستنتاج المحلي. ثالثًا، من أجل كفاءة الذاكرة، نستخدم آلية انتباه هجينة (NoPE-RoPE) ذات تفصيل مكثف، مما يقلل بشكل كبير متطلبات ذاكرة التخزين المؤقت للقيم (KV cache). نحن نُطلق SmallThinker-4B-A0.6B وSmallThinker-21B-A3B، اللذين يحققان أداءً ينافس أفضل النماذج الحالية، وحتى يتفوقان على نماذج LLM الأكبر. بشكل مثير للدهشة، يُلغي نظامنا المُصمم بسلاسة الحاجة إلى معدات GPU باهظة الثمن: مع كمية التمثيل Q4_0، يتجاوز كلا النموذجين 20 رمزًا في الثانية على وحدات المعالجة المركزية العادية للمستخدمين، مع استهلاك ذاكرة بسعة 1 جيجابايت و8 جيجابايت على التوالي. يمكن الوصول إلى SmallThinker علنًا على: hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct وhf.co/PowerInfer/SmallThinker-21BA3B-Instruct.