HyperAIHyperAI

Command Palette

Search for a command to run...

Nvidia تُقدّم منصة Vera Rubin الأكثر تعقيدًا في تاريخ الحوسبة الاصطناعية والحوسبة عالية الأداء تُعد منصة Vera Rubin، التي تعمل Nvidia على تطويرها كأحد أحدث مبادراتها في مجال الحوسبة الاصطناعية والحوسبة عالية الأداء (HPC)، أحدث وأكثر المنصات تعقيدًا في تاريخ البيانات المركّزة. وستُقدّم المنصة، التي من المُتوقع أن تُطلق رسمياً في أواخر 2025، معايير جديدة في الأداء والكفاءة، بفضل تكامل تسع مكونات مُخصّصة لكلٍ من مهام محددة. تُركّز منصة Vera Rubin على تكامل مُحَوَّلٍ مُتعدّد المكونات، تشمل: وحدة معالجة مركزية (CPU) مخصّصة بـ88 نواة تُسمّى "Vera"، وحدة معالجة رسومات (GPU) مُطورة بسعة 288 جيجابايت من الذاكرة HBM4 تُسمّى "Rubin"، ووحدة معالجة مُخصّصة للاستدلال (CPX) بسعة 128 جيجابايت من الذاكرة GDDR7، بالإضافة إلى مفاتيح اتصال NVLink 6.0، ووحدة معالجة بيانات (DPU) BlueField-4، وشبكات اتصال فوتونية (Photonics) من نوع Spectrum-6 وQuantum-CX9، ونظام تبادل بيانات مُتقدّم يُسمّى NIXL. تُقدّم نسخة NVL144 الكاملة من المنصة 144 وحدة Rubin GPU (موزّعة على 72 حزمة) مع 20,736 تيرابايت من الذاكرة HBM4، و36 وحدة معالجة Vera CPU، ما يُمكّنها من تحقيق أداءً يصل إلى 3.6 NVFP4 إكسافلوبس في الاستدلال، و1.2 FP8 إكسافلوبس في التدريب. أما نسخة NVL144 CPX، فتُقدّم أداءً يقترب من 8 NVFP4 إكسافلوبس بفضل وحدات Rubin CPX، ما يُعدّ تقدّمًا كبيرًا في كثافة الحوسبة. من ناحية البرمجيات، تُعدّ منصة Rubin مُحسّنة لدعم دقة FP4/FP6، والعمل على مسارات مُتعدّدة تصل إلى مليوني كلمة، وتطبيقات الذكاء الاصطناعي التوليدية متعدّدة الوسائط. وتم تطوير "Dynamo" – منصة توزيع الاستدلال المُبنية على CUDA 13 – لتنظيم مهام الاستدلال تلقائيًا بين أنواع مختلفة من وحدات المعالجة، مع دعم "Smart Router" و"GPU Planner" لتحسين توازن الأحمال في نماذج Mixture-of-Experts (MoE)، و"Interconnect Extension Layer" (NIXL) لتمكين نقل البيانات دون نسخ بين وحدات المعالجة والشبكات عبر تقنية InfiniBand GPUDirect Async، ما يقلّل من التأخير وعبء وحدة المعالجة المركزية. كما تُقدّم منصة Vera Rubin دعمًا مُتقدّمًا للذاكرة المؤقتة (key-value cache) عبر وحدة NVMe مدمجة، مع معدل انتشار (hit rate) بين 50% و60%، ما يُمكّن من الحفاظ على سياق المحادثات الطويلة بكفاءة. وتم تطوير مكتبة NCCL 2.24 لخفض زمن التأخير في الرسائل الصغيرة بنسبة 4 أضعاف، ما يُسهّل تكبير النماذج الذكية العاملة على تريليونات المعاملات. على مستوى المعالج المركزي، تُستخدم وحدة Vera التي تم تصميمها خصيصًا للحوسبة في البيانات المركّزة، وتمتلك 88 نواة من نوع Armv9.2 مُطوّرة داخليًا باسم "Olympus"، مع دعم تقنية التعدد المتوازي (SMT) التي تُمكن من تشغيل 176 خيطًا في آن واحد. وتصل عرض النطاق الترددي للذاكرة إلى 1.2 تيرابايت في الثانية، بزيادة 20% عن الجيل السابق، Grace، وتستخدم تقنية LPDDR5X مع وحدات SOCAMM2 لزيادة الكثافة. تُستخدم تقنية NVLink-C2C لتوصيل المعالج المركزي بوحدات المعالجة الرسومية، مع زيادة في عرض النطاق الترددي إلى 1.8 تيرابايت في الثانية لكل معالج، مقارنة بـ900 جيجابايت في الثانية في الجيل السابق. كما تُظهر الصور الأولى للوحدة وجود تصميم متعدد القطع (multi-chiplet)، مع وجود قطعة إدخال/إخراج منفصلة، ما يشير إلى تصميم مرن ومُتكيف مع متطلبات الأداء العالي. أما وحدة المعالجة الرسومية Rubin، فهي تتضمّن قطعتين حسابيتين بحجم قطعة شريحة مُقرّبة (near-reticle-sized) مصنوعتين بتقنية 3 نانومتر من TSMC، وقطعتين إدخال/إخراج، مع 288 جيجابايت من الذاكرة HBM4 بسرعة 6.4 جيجابت في الثانية، ما يُوفّر عرض نطاق ترددي إجمالي يقارب 13 تيرابايت في الثانية. وتُقدّم كل وحدة Rubin أداءً يصل إلى 50 بيتافلوبس في دقة FP4، و16 بيتافلوبس في دقة FP8، ما يُعدّ تقدمًا بنسبة 3.3 و1.6 مرة على الجيل السابق، Blackwell Ultra. لكن هذا الأداء العالي يأتي بتكاليف طاقة أعلى، حيث تُقدّر استهلاك الطاقة بنحو 1.8 كيلوواط لكل وحدة، ما يتطلب تحسينات في أنظمة التبريد. ومع ذلك، فإن التحسينات في الأداء تُبرّر هذا الزيادة، خاصة أن تصميم الرف Oberon المستخدم في NVL144 قادر على تبريد هذه الوحدات بتعديلات بسيطة. في الجيل التالي، المُتوقع أن يُطلق في 2027، ستُقدّم منصة Rubin Ultra أداءً مُضاعفًا بفضل انتقالها من وحدتين حسابيتين إلى أربع، مع ارتفاع سعة الذاكرة إلى 1 تيرابايت من HBM4E، وعرض نطاق ترددي يبلغ 32 تيرابايت في الثانية، ومستهلكة 3.6 كيلوواط، ما يستدعي تصميم رف جديد يُسمّى Kyber لدعمها. تُعدّ وحدة Rubin CPX، المُخصّصة لأول مرة، مُعَمّلًا مُخصّصًا لتسريع مراحل التوليد المُبكرة (prefill) في نماذج الذكاء الاصطناعي، بسعة 128 جيجابايت من الذاكرة GDDR7، ما يُقلّل التكلفة والطاقة مقارنة بالوحدات التقليدية، ويُمكّن من معالجة تسلسلات طويلة تتضمّن ملايين الكلمات أو بيانات متعددة الوسائط مثل الفيديو. وحدة BlueField-4 DPU، التي تُستخدم في العديد من أنظمة NVL144، تُعوّض وحدة المعالجة المركزية من مهام التبادل، التشفير، التوجيه، وتخزين البيانات، عبر مُعالجات مُخصّصة واتصال 800 جيجابت في الثانية، ما يُقلّل التأخير ويعزّز أداء النظام. من ناحية الاتصال، تُستخدم تقنية NVLink 6.0 لزيادة عرض النطاق الترددي بين وحدات المعالجة إلى 3.6 تيرابايت في الثانية، مع دعم 144 منفذًا في مفاتيح NVSwitch 6.0، ما يُمكّن من توصيل 144 وحدة GPU في رف واحد. وستُقدّم نسخة Rubin Ultra مُحدثة بـNVLink 7.0 وNVSwitch 7.0 لدعم مزيد من الاتصالات. في مجال الاتصالات المُتعدّدة (scale-out)، تُقدّم Nvidia منصات فوتونية مُدمجة (CPO) تُسمّى Spectrum-X وQuantum-CX9، مبنية على منصة COUPE من TSMC، وتُقدّم 1.6 تيرابايت في الثانية لكل منفذ. وستُقدّم وحدات ConnectX-9 SuperNIC بقدرات متقدّمة في التبادل المباشر بين GPU والشبكة، مع دعم التشفير، المراقبة، والعزل، ما يُمكّن من بناء مراكز بيانات ضخمة بسعة مئات وحدات الشبكة في الرف الواحد. تُعدّ منصة Vera Rubin نقلة نوعية في تطوير الحوسبة الاصطناعية، حيث تُركّز على التكامل العميق بين المكونات المُتعدّدة، وتحقيق أقصى أداء بذكاء، مع الحفاظ على الكفاءة والقابلية للتوسع. وستُمكّن مراكز البيانات من التعامل مع نماذج ذكاء اصطناعي ضخمة ومتقدّمة، مثل النماذج العاملة في البيئات التوليدية، والذكاء الاصطناعي العقلي (agentic AI)، بسلاسة وفعالية غير مسبوقة.

تُعد منصة "فيرا روبن" (Vera Rubin) أحدث منصات نيفيديا المتطورة في مجال الحوسبة الاصطناعية والحوسبة عالية الأداء (HPC)، وتُعد من أعقد المنصات التي صمّمتها الشركة حتى الآن. تُصمم المنصة لتعزيز الأداء والكفاءة في مراكز البيانات، وتُستند إلى تكامل مكثف لـ9 مكونات مُخصصة، كل منها مُصمم لمهام محددة. من المُتوقع أن تُطلق رسميًا في أواخر 2025، مع تفاصيل إضافية تُكشف تدريجيًا. من ناحية الأجهزة، تُركّز منصة "فيرا روبن" على معمارية مُتعددة المكونات في مستوى الرف. تشمل المكونات الرئيسية: وحدة معالجة مركزية (CPU) مخصصة بـ88 نواة من نوع Armv9.2 (مُسمّاة "أوليمبوس")، وحدة معالجة رسومات "Rubin" بسعة 288 جيجابايت من الذاكرة HBM4 بسرعة 6.4 جيجا تيرابايت/ثانية، ووحدة "Rubin CPX" مُخصصة للحوسبة المُتعددة المُدخلات (مثل الفيديو والنص) بسعة 128 جيجابايت من ذاكرة GDDR7. كما تضم المنصة مفاتيح اتصال NVLink 6.0 بسرعة 3.6 تيرابايت/ثانية، ووحدة معالجة بيانات (DPU) BlueField-4 مُدمجة مع SSD لتخزين ذاكرة مُساعدة، وشبكات اتصال فوتونية (Photonics) من نوع Spectrum-6 وQuantum-CX9 بسرعة 1.6 تيرابايت/ثانية. تُقدّم منصة NVL144 المتكاملة 144 وحدة Rubin (موزعة على 72 حزمة)، مع 20,736 تيرابايت من HBM4، و36 وحدة معالجة "فيرا"، لتُحقق أداءً يصل إلى 3.6 NVFP4 إكسافلوبس في المُعالجة (inference) و1.2 FP8 إكسافلوبس في التدريب. أما نسخة CPX فتُقدّم أداءً أقرب إلى 8 NVFP4 إكسافلوبس بفضل كفاءة مُخصصة لمهام المُدخلات الطويلة. من ناحية البرمجيات، تُحسّن منصة "فيرا روبن" دعم دقة FP4/FP6، وتمديد سياق المُدخلات إلى ملايين الرموز، وتمكّن من مُعالجة النماذج متعددة الوسائط. تُستخدم أدوات مثل "Dynamo" لتقسيم المهام تلقائيًا بين وحدات المعالجة، و"Smart Router" و"GPU Planner" لتحسين توازن الأحمال في نماذج Mixture-of-Experts. كما تُقدّم "NIXL" نقل بيانات صفر نسخ (zero-copy) بين GPU وNIC عبر InfiniBand، وتُقلل من تحميل وحدة المعالجة المركزية. وتمكّن ذاكرة NVMe المُساعدة من تحقيق معدل انتشار 50%–60%، مما يُحسّن تجربة المحادثات متعددة الجلسات. تُستخدم تقنية CoWoS-L لتعبئة الرقائق، مع تخطيط مُتعدد الرقائق (multi-chiplet) لوحدة المعالجة "فيرا"، مع تكامل مُتعدد لوحدة الإدخال/الإخراج. ورغم أن تفاصيل مثل الترددات، وسعة الذاكرة المُشتركة، ونظام NUMA لا تزال غير مُعلنة، فإن الأداء المُتوقع يُفوق نموذج "غريس" بمرتين. تُقدّم وحدة Rubin GPU أداءً مُذهلًا: 50 بيتافلوبس FP4 و16 بيتافلوبس FP8، بزيادة 3.3 و1.6 مرة مقارنة بـBlackwell Ultra. تُستهلك 1.8 كيلوواط لكل وحدة، مع توقعات بتحديث "Rubin Ultra" في 2027 بقدرات مُضاعفة (100 بيتافلوبس FP4) وسعة HBM4E تصل إلى تيرابايت واحد. تُعد "Rubin CPX" أول وحدة معالجة مُخصصة للتعامل مع المدخلات الطويلة في النماذج اللغوية الكبيرة، بتصميم مُخفض التكلفة والطاقة. بينما تُعزز BlueField-4 الأداء في الشبكات والتخزين والأمان عبر تسريع العمليات في الهاردوير. في مجال الاتصال، تُستخدم تقنية NVLink 6.0 لربط الوحدات داخل الرف، مع إمكانية الوصول إلى 28.8 تيرابايت/ثانية من عرض النطاق الترددي بين GPU. أما في الشبكات الممتدة (scale-out)، فتُقدّم نيفيديا حلولًا فوتونية مُدمجة (CPO) عبر Spectrum-X وQuantum-X، مع بطاقات شبكة ConnectX-9 بسرعة 1.6 تيرابايت/ثانية، وتُدعم بمنصة SHARP v4 لتسريع العمليات داخل الشبكة. باختصار، "فيرا روبن" تمثل خطوة جذرية في تطور الحوسبة الذكية، حيث تدمج بين الأداء العالي، الكفاءة الطاقية، والتكامل العميق بين الهاردوير والبرمجيات، مما يجعلها المنصة المُثالية لمستقبل الذكاء الاصطناعي العملاق.

الروابط ذات الصلة