ظهور نسخة جديدة من DeepSeek R1-0528 أسرع بنسبة 200% ومعالجة أفضل وأقل حجم
في الثالث من يوليو ٢٠٢٥، أعلنت شركة تي إن جي تكنولوجي كونسلتينغ جمب إتش، وهي شركة ألمانية تأسست عام ٢٠٠١ ومقرها في بافاريا، عن إطلاق نموذج DeepSeek-TNG R1T2 Chimera الجديد. هذا النموذج هو تكيف لـ DeepSeek R1-0528، وهو نموذج مفتوح المصدر تم تطويره بواسطة شركة ديبسيك الصينية، فرع شركة هاي فلاير كابيتال مانجمنت في هونج كونج. DeepSeek-R1-0528 أثار اهتمام المجتمعين العلمي والأعمال العالمي بسبب تكلفته المنخفضة وأدائه الممتاز في مهام الاستدلال، وهو متاح مجانًا للمطورين والشركات. ركزت تي إن جي على تقنية Assembly-of-Experts (AoE) لدمج نماذج مسبقة التدريب، مما أدى إلى بناء R1T2 دون الحاجة إلى المزيد من التحسينات أو إعادة التدريب. R1T2 يجمع بين قوة الاستدلال من R1-0528 وأنماط الفكر المهيكلة من R1 والسلوك الموجز الموجه للتعليمات من V3-0324. النتيجة هي نموذج أكثر كفاءة وأسرع، حيث يحقق ما يصل إلى ٩٢٪ من درجات قياس الذكاء التي حققها R1-0528، مع تقليل عدد الرموز المخرجة بنسبة ٦٠٪. هذا يعني أن R1T2 ينتج إجابات أقصر بكثير، مما يؤدي إلى تسريع الاستدلال وخفض تكاليف الحوسبة. بينما MoE هو تصميم معماري يُفعّل مكونات مختلفة بناءً على المدخلات، فإن AoE هو تقنية دمج نماذج تختارياً تجمع أوزان التنسورات (المعلمات الداخلية) من نماذج مسبقة التدريب. يركز AoE على دمج التنسورات المتخصصة من MoE، مع الحفاظ على الطبقات المشتركة والانتباه الأكثر كفاءة من النماذج الأسرع مثل V3-0324. وفقًا للمقارنات التي قدمتها تي إن جي، يتفوق R1T2 في كفاءته على R1-0528 بنسبة ٢٠٠٪، وعلى R1 بنسبة ٢٠٪. هذه الكفاءة لا تأتي على حساب الذكاء، حيث يتم الحفاظ على جودة الاستدلال بينما يتم تقليل التكرار والتأخير. تي إن جي تشجع الشركات على استكشاف R1T2 واختبار سلوكه، وتوفر النموذج تحت ترخيص MIT المرن على Hugging Face. هذا الترخيص يسمح بالتحكم الكامل في التنفيذ والتخصيص، بما في ذلك الاستضافة الخاصة والتدريب الإضافي داخل بيئات مراقبة أو معزولة. من وجهة نظر صانعي القرار الفني في الشركات، يقدم R1T2 فوائد استراتيجية واضحة. يقلل من تكاليف الاستدلال عن طريق تقليل وقت استخدام الوحدات المركزية الرسومية (GPU) والاستهلاك الطاقي، ويحافظ على قوة الاستدلال دون مبالغة في التفاصيل، مما يجعله مثاليًا للمهام المهيكلة مثل الرياضيات والبرمجة والمنطق. من الجدير بالذكر أن تي إن جي لديها تركيز قوي على الابتكار التقني والمساهمة في المجتمعات المفتوحة المصدر. تعمل الشركة مع عملاء كبار في مجالات مثل الاتصالات والتأمين والسيارات والتجارة الإلكترونية واللوجستيات، وهي تسعى إلى تحقيق التوازن بين الذكاء وكفاءة الاستدلال في نماذج اللغة الطبيعية الكبيرة (LLMs). يجب على الشركات الأوروبية تقييم الامتثال لقانون الذكاء الاصطناعي الأوروبي، الذي سيتم تطبيقه في الثاني من أغسطس ٢٠٢٥. أما الشركات الأمريكية والدولية الأخرى فهي ليست خاضعة لشروط القانون الأوروبي، مما يوفر لها مرونة أكبر عند استخدام ونشر هذا النموذج المفتوح المصدر. المجتمع التقني استقبل R1T2 بإيجابية كبيرة، مثنيًا على استجابته وكفاءة استخدام الرموز وموازنته بين السرعة والترابط. أحد المستخدمين في مجتمع Reddit LocalLLaMA أشار إلى أن هذا هو أول مرة يبدو فيها نموذج Chimera تحسن حقيقيًا في السرعة وجودة الإجابات. كما لوحظ أن R1T2 يتمتع بشخصية أكثر ثباتًا ويتجنب الهلوسة بشكل أكثر اتساقًا من النماذج السابقة. اختتامًا، يعد DeepSeek-TNG R1T2 Chimera معيارًا جديدًا في تصميم النماذج المتوازنة، حيث يجمع بين قوة الاستدلال وكفاءة الاستخدام. توفره كمصدر مفتوح تحت ترخيص MIT يضمن الوصول والاستخدام، مما يجعله خيارًا قويًا للمطورين الذين يحتاجون إلى نماذج لغوية كبيرة سريعة وقابلة للتخصيص. مع إثبات فعالية الدمج حتى في النماذج ذات المعلمات الكبيرة، قد يفتح R1T2 الباب لمزيد من التجارب في تداخل الفضاء المعلمي، مما يسهل تطوير نماذج أكثر مرونة وقابلية للتفسير.