HyperAIHyperAI
Back to Headlines

نفيديا تفكيك معالجة السياق الطويل لتعزيز الكفاءة الاقتصادية في الذكاء الاصطناعي

منذ 10 أيام

تُعدّ تقنية "نفيديا" لتفكيك معالجة النماذج طويلة السياق (Long-Context Inference) عبر وحدة معالجة مخصصة تُعرف بـ"Rubin CPX" خطوة استراتيجية حاسمة لمواجهة التحديات الاقتصادية والهندسية الناتجة عن الطلب المتزايد على ذاكرة HBM في عصر الذكاء الاصطناعي. مع توقع ارتفاع الإنفاق على أنظمة الحوسبة المُسرّعة بالـXPU من منتصف 2026 إلى أوائل 2027، تواجه الصناعة ضغطًا هائلاً على إمدادات HBM، التي تشهد تراجعًا في العائدات بسبب تعقيد تصنيعها مع زيادة كثافتها وعرض نطاقها الترددي. في هذا السياق، تقدم نفيديا حلاً مبتكرًا عبر Rubin CPX، وحدة معالجة مخصصة للعملية التوليدية في النماذج ذات السياق الطويل (مثل توليد الكود أو معالجة الفيديو)، حيث لا تتطلب هذه المهام ذاكرة عالية السرعة، لكنها تتطلب كمًا كبيرًا من الحوسبة. بدلًا من استخدام وحدات GPU مزودة بذاكرة HBM باهظة الثمن لمعالجة كل جزء من العملية، تقوم نفيديا بتفكيك العمل إلى جزأين: معالجة السياق (prefill) وعملية التوليد (decode). يُعالج السياق بواسطة Rubin CPX باستخدام ذاكرة GDDR7 بسعة 128 جيجابايت وعرض نطاق ترددي يقارب 2.1 تيرابايت/ثانية، بينما تُستخدم وحدات Rubin R100/R200 ذات HBM3E أو HBM4 في مرحلة التوليد. النتيجة: زيادة في الأداء بنسبة 6 أضعاف باستخدام وحدتين فقط، مقابل زيادة في الحوسبة بنسبة 2.25 فقط، ما يجعل هذا النموذج أكثر كفاءة من حيث التكلفة. وتشير نفيديا إلى أن هذه الطريقة تُمكن من تقليل التكلفة لكل عملية توليد، مما يفتح المجال أمام اعتماد أوسع على نماذج الذكاء الاصطناعي المعقدة، خاصةً في تطبيقات توليد الكود والفيديو، التي تمثل نحو 1/6 من حالات استخدام الذكاء الاصطناعي. ما يميز Rubin CPX هو تقاربها المعماري مع وحدات Rubin R100/R200، رغم استخدامها ذاكرة GDDR7 بدل HBM، ما يقلل التكاليف ويعزز القدرة على التوسع. كما تُظهر الرؤية التقنية لجنسن هوانغ في مؤتمر GTC 2025 أن Rubin سيُبنى على منصة موحدة، مع تأكيد على وجود وحدات مخصصة لتسريع عملية "الانتباه" (attention)، وهي العمود الفقري في نماذج الذكاء الاصطناعي، مما يعزز كفاءة المعالجة دون الحاجة إلى استهلاك موارد ذاكرة عالية. في نظام Vera Rubin الركيزي (rack-scale)، يُمكن دمج 144 وحدة Rubin CPX، مما يضيف 4.4 إكسافلوبس من الحوسبة، و300 تيرابايت/ثانية من عرض النطاق الترددي، و25 تيرابايت من الذاكرة السريعة. وفقًا لبيانات إيان بوك، فإن كل 100 مليون دولار استثمار في هذا النظام يمكن أن تُنتج 5 مليار دولار عائدات عبر توليد الرموز (tokens) على مدى أربع سنوات. ويمكن أيضًا توزيع الوحدات عبر عقد منفصلة، مما يوفر مرونة في التصميم ويزيد من سعة الذاكرة إلى 50 تيرابايت. يُرجّح أن هذه الأنظمة ستُستخدم ليس فقط للنماذج الطويلة السياق، بل أيضًا لتطبيقات أصغر، مما يفتح آفاقًا جديدة في تخصيص الموارد. بالتالي، تُظهر نفيديا تحوّلًا استراتيجيًا: من الاعتماد على وحدات متكاملة باهظة إلى نموذج مُفصّل يُحسّن الكفاءة ويقلّل التكلفة، مع الحفاظ على الأداء العالي. وربما يكون هذا التأخير في إطلاق Rubin CPX حتى نهاية 2026 نتيجة لاستراتيجية تهدف إلى تفادي التحديات التقنية والهندسية، خاصةً في دمج وحدات تسريع الانتباه وتصميم ذاكرة مُخصصة.

Related Links

نفيديا تفكيك معالجة السياق الطويل لتعزيز الكفاءة الاقتصادية في الذكاء الاصطناعي | العناوين الرئيسية | HyperAI