HyperAI
Back to Headlines

المقارنة الكبرى بين هياكل النماذج اللغوية الكبرى: تطورات 2025 وتأثيراتها على الكفاءة والأداء

منذ 2 أيام

مقارنة هندسة النماذج اللغوية الكبيرة (LLM) منذ سبع سنوات على تطوير الهيكل الأصلي لنموذج GPT، قد تشعر بالدهشة عند النظر إلى GPT-2 (2019) و DeepSeek-V3 و Llama 4 (2024-2025) وأنها لا تزال هيكلياً مشابهة. بالطبع، تطورت تعبئة المواقع من المطلقة إلى الدورانية (RoPE)، وتم استبدال انتباه الرؤوس المتعددة (Multi-Head Attention) بانتباه مجموعة الاستفسارات (Grouped-Query Attention)، واستبدلته الدالة SwiGLU بدالة التنشيط GELU. ولكن هل حقاً رأينا تغييرات ثورية أم أننا نقوم فقط بتحسين الأسس الهندسية نفسها؟ DeepSeek-V3 و DeepSeek R1 عند إطلاق DeepSeek R1 في يناير 2025، أحدث هذا النموذج تأثيراً كبيراً. يعتمد DeepSeek R1 على هيكل DeepSeek V3 الذي تم تقديمه في ديسمبر 2024. في هذا القسم، سنركز على تقنيتين هندسيتين أساسيتين في DeepSeek V3: انتباه الرؤوس المتعددة الكامنة (Multi-Head Latent Attention - MLA) تقنيات انتباه الرؤوس المتعددة الكامنة (MLA) تقدم استراتيجية مختلفة لتوفير الذاكرة، حيث يتم ضغط تنسورات المفاتيح والقيم في فضاء بُعد أقل قبل تخزينها في ذاكرة KV cache. أثناء الاستدلال، يتم إعادة تصوير هذه التنسورات المضغوطة إلى حجمها الأصلي قبل استخدامها. هذا يضيف عملية ضرب مصفوفة إضافية ولكنه يقلل من استهلاك الذاكرة. طبقة خليط الخبراء (Mixture-of-Experts - MoE) تستخدم DeepSeek-V3 طبقات خليط الخبراء (MoE) لزيادة كفاءة الذاكرة. في هذه الطريقة، يتم استبدال كل وحدة FeedForward بوحدات متعددة من FeedForward، ولكن ليس جميع الخبراء نشطين لكل رمز (token). بدلاً من ذلك، يقوم الروتر (router) بتحديد مجموعة صغيرة فقط من الخبراء لكل رمز. على سبيل المثال، يحتوي DeepSeek-V3 على 256 خبيراً ويستخدم 9 فقط (خبير مشترك واحد و8 مختارين بواسطة الروتر) في كل خطوة استدلال، مما يعني أنه يستخدم فقط 37 مليار بارامتر بدلاً من 671 مليار. OLMo 2 نماذج OLMo من معهد Allen Institute for AI تتميز بشفافيتها في بيانات التدريب والكود والتقارير الفنية المفصلة. رغم أنها ليست في مقدمة اللوائح، فهي تعد نموذجاً جيداً لتطوير النماذج اللغوية الكبيرة (LLM). الترميم بعد التطبيع (Post-Norm) تستخدم OLMo 2 ترميماً بعد التطبيع (Post-Norm) بدلاً من الترميم قبل التطبيع (Pre-Norm). هذا يساعد في استقرار التدريب، كما هو موضح في الشكل أدناه. بالإضافة إلى ذلك، تستخدم طبقة QK-norm داخل آلية الانتباه المتعدد الرؤوس (MHA) لتطبيع الاستفسارات والمفاتيح قبل تطبيق RoPE. Gemma 3 تتميز نماذج Gemma من Google بحجم مفرداتها الكبير وقدرتها على دعم العديد من اللغات بشكل أفضل. النموذج الأكثر شهرة هو الحجم 27B، والذي يحقق توازنًا جيدًا بين الأداء والتكاليف. انتباه النافذة المنزلقة (Sliding Window Attention) يستخدم Gemma 3 انتباه النافذة maison (Sliding Window Attention) لتحسين كفاءة الذاكرة. بدلاً من انتباه الشامل (global attention)، يتم تقييد السياق حول الموضع الحالي للاستفسار، مما يقلل من المتطلبات الذاكرة بشكل كبير. هذا النهج يستخدم أيضًا مع انتباه مجموعة الاستفسارات (GQA). توضيب التطبيع (Normalization Placement) تستخدم Gemma 3 ترميماً قبل وبعد الطبقة (Pre-Norm and Post-Norm) حول وحدة GQA، مما يحقق أفضل من العالمين: الاستقرار والاستدلال الفعال. Mistral Small 3.1 أطلقه Mistral في مارس 2025، وهو يتفوق على Gemma 3 27B في عدة مقاييس (باستثناء الرياضيات) بينما يكون أسرع. الأسباب المحتملة لهذا الأداء الأفضل تشمل استخدامه لمحلل الكلمات (tokenizer) مخصص وتقليص حجم ذاكرة KV cache وعدد الطبقات. يستخدم Mistral Small 3.1 انتباه مجموعة الاستفسارات (GQA) القياسي بدلاً من GQA مع نافذة منزلقة. Llama 4 يتبع Llama 4 نهجًا معياريًا يتضمن استخدام طبقات خليط الخبراء (MoE) ويناسب بقية الأطراف في هذا المجال. يختلف Llama 4 عن DeepSeek-V3 في استخدامه لانتباه مجموعة الاستفسارات (GQA) بدلاً من انتباه الرؤوس المتعددة الكامنة (MLA). يحتوي Llama 4 على 400 مليار بارامتر، ولكن فقط 17 مليار نشطة في كل خطوة استدلال. Qwen3 تقدم فريق Qwen نماذج عالية الجودة ومفتوحة الوزن. يتوفر النموذج في أحجام كثيفة (dense) وأخرى خفيفة (sparse) باستخدام MoE. النموذج الأكثر شهرة هو الحجم 0.6B، وهو أصغر حجماً ولكنه يحقق أداءً جيداً مع استهلاك ذاكرة منخفض. يستخدم Qwen3 طبقات MoE بشكل مرن لدعم مجموعة متنوعة من الاستخدامات. SmolLM3 رغم عدم شهرتها الكبيرة، فإن SmolLM3 يقدم أداءً ممتازاً في حجم 3 مليار بارامتر. تتميز هذه النماذج بشفافيتها في تفاصيل التدريب. تستخدم SmolLM3 تقنية NoPE، التي تتجنب إضافة معلومات الموضع الصريحة، مما يحسن قدرة النموذج على التعامل مع سلاسل طويلة من البيانات. Kimi 2 أثار Kimi 2 ضجة كبيرة في مجتمع الذكاء الاصطناعي بفضل أدائه الرائع الذي يضاهي أفضل النماذج الملكية مثل Google's Gemini و Anthropic's Claude و OpenAI's ChatGPT. يعتمد على هيكل DeepSeek V3 ولكن بحجم أكبر، حيث يحتوي على تريليون بارامتر. مُحسَّن Muon يستخدم Kimi 2 مُحسَّن Muon بدلاً من AdamW، مما أدى إلى منحنيات خسارة جميلة ومستقرة. هذا يساعد في تحقيق كفاءة تدريبية عالية. تقييم الحدث من قبل مختصين تعتبر التطورات الأخيرة في هندسة النماذج اللغوية الكبيرة (LLM) مثيرة للاهتمام، حيث تتجه الشركات نحو تقنيات مثل MoE و MLA لتحقيق كفاءة أعلى في استهلاك الذاكرة والاستدلال. هذه التطورات تؤكد على أهمية البحث المستمر والابتكار في مجال الذكاء الاصطناعي. نبذة تعريفية عن الشركات DeepSeek: شركة متخصصة في تطوير النماذج اللغوية الكبيرة، مع التركيز على كفاءة الذاكرة والاستدلال. أحدثت نماذجها تأثيراً كبيراً في السوق المفتوح. Allen Institute for AI: منظمة غير ربحية تهدف إلى تسهيل البحث العلمي عبر تقديم نماذج شفافة وقابلة للتكرار. Google: شركة تقنية عملاقة تطور نماذج LLM ذات أداء عالي وكفاءة ممتازة في الاستهلاك الموارد. Mistral: شركة تقدم نماذج مبتكرة تركز على سرعة الاستدلال وأداء المهام. Meta (Llama): شركة تقنية تطور نماذج LLM ذات أداء ممتاز ومتعددة الاستخدامات. Qwen: فريق بحث يطور نماذج LLM عالية الجودة ومفتوحة الوزن، مع التركيز على المرونة والكفاءة. SmolLM: مشروع بحثي يهدف إلى تحقيق أداء عالي في أحجام نماذج متوسطة. هذه النماذج تظهر التقدم المستمر في مجال الذكاء الاصطناعي وتؤكد على الحاجة إلى بحث مستمر وابتكار لتحسين الأداء وكفاءة الموارد.

Related Links