HyperAI

لم تعد الشركات تنتظر إطلاق النسخ الجديدة من النماذج اللغوية العملاقة، حيث طورت شركة TNG Technology Consulting GmbH الألمانية، نموذجًا جديدًا يُعرف باسم DeepSeek-TNG R1T2 Chimera (R1T2)، مستندًا إلى إصدار DeepSeek R1-0528. هذا النموذج الجديد يحقق زيادة في السرعة بنسبة 200% مقارنة بإصدار R1-0528، وفي الوقت نفسه، يقدم إجابات ذكية باستخدام عدد أقل بكثير من الكلمات. نموذج R1T2 هو نموذج مفتوح المصدر يحتوي على 671 مليار معامل، وهو أحدث إضافة إلى سلسلة Chimera من TNG. تتميز نماذج Chimera بقدرتها على دمج خصائص النماذج الأبوية المتنوعة، مما يجعلها أكثر فعالية وكفاءة. في حالة R1T2، تم دمج خصائص ثلاث نماذج أبوية: DeepSeek-R1-0528، DeepSeek-R1، وDeepSeek-V3-0324. هذا الدمج تم بدون أي تحسينات إضافية أو إعادة تدريب، مما يمكن النموذج من الحفاظ على قدرات التحليل والاستدلال من DeepSeek-R1-0528، نمط التفكير البنيوي من DeepSeek-R1، والخصائص السلسة للتعليمات من DeepSeek-V3-0324. وفقًا للبيانات التي قدمتها TNG، حقق نموذج R1T2 تحسينات كبيرة في كفاءة الإنتاجية. في اختبارات AIME-24 وAIME-25 وGPQA-Diamond، بلغت قدرات الاستدلال في R1T2 ما بين 90% و92% من النموذج الأكثر ذكاءً، وهو DeepSeek-R1-0528. ومع ذلك، فإن R1T2 يستخدم حوالي 40% فقط من الوحدات النمطية المطلوبة لإنتاج الإجابات، مما يؤدي إلى تقليل وقت الاستدلال والتكلفة الحسابية بمقدار يزيد على الضعف. كما أن الإجابات التي ينتجها R1T2 أكثر اقتضابًا بنسبة 20% تقريبًا مقارنة بنموذج DeepSeek-R1 الأصلي، مما يوفر كفاءة أكبر في البيئات ذات المعدلات العالية أو الحساسة للتكلفة. تقوم TNG بتقييم "السرعة" بناءً على عدد الوحدات النمطية المُخرجة لكل إجابة، وليس على أساس الوقت المعالج أو عدد الوحدات النمطية المُعالجة في الثانية. هذا المقياس العملي يعكس التكلفة والتأخير معًا، مما يجعله مؤشرًا موثوقًا في تقييم كفاءة النموذج. الفرق بين AoE و MoE تستخدم TNG تقنية تُعرف باسم Assembly-of-Experts (AoE) لدمج النماذج. تختلف AoE عن Mixture-of-Experts (MoE) في أنها طريقة لدمج النماذج بدلاً من كونها تصميمًا هيكليًا. في AoE، يتم دمج وزنات النماذج المدربة مسبقًا بشكل انتقائي، مما يمكن من إنشاء نموذج جديد يجمع بين أفضل الخصائص من النماذج الأبوية. بينما في MoE، يتم تنشيط مكونات مختلفة أو "خبراء" بحسب المدخلات، مما يتيح للموديلات العملاقة الحفاظ على تكلفة استدلال مقبولة رغم زيادة عدد المعلمات. الفوائد الاستراتيجية لـ R1T2 تكلفة استدلال أقل: يوفر R1T2 تكلفة أقل في البنية التحتية بسبب استخدامه لعدد أقل من الوحدات النمطية لكل مهمة، مما يقلل من وقت تشغيل GPU والطاقة المستهلكة. جودة استدلال عالية بدون تكرار: يحافظ R1T2 على معظم قدرات الاستدلال من النماذج الأبوية مثل DeepSeek-R1-0528، ولكن بدون مشكلة التكرار الزائد، مما يجعله مثاليًا للمهام البنيوية مثل الرياضيات والبرمجة والمنطق. مصدر مفتوح وقابل للتعديل: تتيح رخصة MIT الكاملة للتحكم في نشر النموذج وتخصيصه، مما يدعم الاستضافة الخاصة والتوافق مع البيئات المنظمة أو المعزولة. مستقبل نماذجي معياري: يشير AoE إلى مستقبل يمكن فيه بناء النماذج بطريقة معيارية، حيث يمكن للشركات تجميع نماذج متخصصة من خلال إعادة ترتيب مزايا النماذج الموجودة بدلاً من إعادة التدريب من الصفر. القيود والتحديات رغم فوائده، يجب على الشركات التي تعتمد على وظائف الدعوة أو أدوات متقدمة ملاحظة القيود الحالية لـ R1T2. حاليًا، لا يُنصح باستخدامه في سيناريوهات تتطلب هذه الوظائف، لكن تحديثات Chimera المستقبلية قد تكمل هذه النقص. الالتزامات القانونية تُشجع TNG الشركات الأوروبية على تقييم توافق النموذج مع اللوائح الجديدة لقانون الذكاء الاصطناعي في الاتحاد الأوروبي، والذي سيصبح ساريًا في 2 أغسطس 2025. الشركات الأمريكية التي تعمل داخل الولايات المتحدة وتقدم خدمات لمستخدمين أمريكيين أو من دول أخرى ليست ملزمة ببنود القانون الأوروبي، مما يمنحها مرونة أكبر في استخدام ونشر هذا النموذج المفتوح المصدر والمجانى. ولكن إذا كانت تقدم خدمات للمستخدمين الأوروبيين، فإن بعض بنود القانون الأوروبي ستطبق عليها. الخاتمة يُعد تطور نموذج R1T2 خطوة مهمة في مجال الذكاء الاصطناعي، حيث يجمع بين السرعة والكفاءة والذكاء. هذا التطور يُظهر أيضًا كيف أصبحت الشركات الأوروبية أكثر ابتكارًا في تطوير وتحسين النماذج اللغوية، وهو أمر يشير إلى توازن أكثر في المنافسة العالمية في هذا القطاع.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

Command Palette

شركة ألمانية تعجل بإطلاق نموذج R1T2 المستمد من DeepSeek.. أسرع بـ200% وأقل كلفة

الروابط ذات الصلة

Command Palette

شركة ألمانية تعجل بإطلاق نموذج R1T2 المستمد من DeepSeek.. أسرع بـ200% وأقل كلفة

الروابط ذات الصلة

Command Palette

شركة ألمانية تعجل بإطلاق نموذج R1T2 المستمد من DeepSeek.. أسرع بـ200% وأقل كلفة

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".