HyperAIHyperAI
Back to Headlines

NVIDIA Blackwell Ultra: الرقائق التي تُشغّل عصر مصانع الذكاء الاصطناعي

منذ 15 أيام

تُعدّ وحدة معالجة الرسوميات NVIDIA Blackwell Ultra أحدث إصدار في سلسلة أجهزة Blackwell، وتُمثّل قفزة نوعية في أداء الحوسبة المتسارعة، خصوصًا في سياق "مصانع الذكاء الاصطناعي" التي تُشغل نماذج ضخمة بسرعة وفعالية. تم تصنيعها باستخدام تقنية TSMC 4NP، وتضم 208 مليار ترانزستور — ما يعادل 2.6 مرة أكثر من جيل Hopper — مع تصميم مزدوج المصفوفة (dual-reticle) يُربط بين قطعتين باستخدام تقنية NV-HBI، التي توفر نطاق تردّد يصل إلى 10 تيرابايت في الثانية، مع الحفاظ على كونها وحدة واحدة قابلة للبرمجة عبر CUDA. تتمحور الأداء العالي حول 160 وحدة معالجة تدفق (Streaming Multiprocessors) موزعة على 8 مجموعات، كل منها تضم أربع وحدات Tensor Cores من الجيل الخامس، ما يُنتج 640 وحدة Tensor Cores مُحسّنة لدعم التنسيق الجديد NVFP4، وهو تنسيق عددي بـ4 بت يُحقق دقة شبه FP8 مع تقليل استهلاك الذاكرة بنسبة 8 مرات مقارنة بـFP8 و3.5 مرات مقارنة بـFP16. هذا يُعزز الأداء في المهام الاستدلالية (inference) الكبيرة، خاصة في النماذج اللغوية الكبيرة (LLMs) ونماذج متعددة الوسائط. أحد أبرز التحسينات هو تسريع عملية softmax في طبقات الانتباه (attention) عبر تضاعف أداء وحدات العمليات التماثلية (SFUs)، ما يُسرّع معالجة السلاسل الطويلة بـ2 مرة مقارنة بـBlackwell، ويُخفّف من التأخير في النماذج التي تعتمد على نوافذ سياق واسعة. هذا التكامل بين دقة NVFP4 وتسريع الانتباه يُنتج تحسينًا جوهريًا في سرعة استجابة النماذج، ويُمكّن من تشغيل عدد أكبر من النماذج المتزامنة في نفس الوقت. فيما يتعلق بالذاكرة، تقدم Blackwell Ultra 288 جيجابايت من ذاكرة HBM3E مدمجة — ما يُضاعف القدرة مقارنة بـH100 ويُزيد بنسبة 50% عن الجيل السابق — مما يسمح بتشغيل نماذج تضم تريليونات المعلمات دون الحاجة إلى نقل بيانات خارج المعالج. كما تدعم الاتصالات بـNVLink 5 بسعة 1800 جيجابايت في الثانية بين وحدات المعالجة، و1800 جيجابايت في الثانية بين المعالجات والـCPU Grace، مع دعم لـPCIe Gen 6 بسعة 256 جيجابايت في الثانية. تُعدّ Blackwell Ultra جزءًا من نظام متكامل، حيث تُشكّل "السوبتشيب" (Superchip) مع معالج Grace CPU، ما يُعطي إمكانية 30 بيتافلوب من الحوسبة المكثفة و40 بيتافلوب في الحالة المتناثرة، مع ذاكرة موحدة تصل إلى تيرابايت واحدة. هذا يُمكّن من بناء مراكز بيانات قادرة على معالجة مهام ذكاء اصطناعي بحجم خيالي، مع تحسين كبير في كفاءة الطاقة (TPS/MW) وسرعة الاستجابة (TPS/user). تم الحفاظ على التوافق الكامل مع بيئة CUDA، مع دعم مُحسّن لFrameworks حديثة، مما يُسهل الانتقال من الأنظمة القديمة دون تغيير كبير في البرمجة. هذه التطورات تُعيد تعريف إمكانيات مصانع الذكاء الاصطناعي، وتجعل من التوسع في النماذج الكبيرة والتشغيل الفعلي للذكاء الاصطناعي في الوقت الفعلي أمرًا واقعيًا واقتصاديًا. باختصار، تُمثّل Blackwell Ultra حجر الزاوية في العصر الجديد للذكاء الاصطناعي، حيث تدمج الابتكارات في التصميم، والذاكرة، والدقة، والاتصال، لتمكين مصانع ذكاء اصطناعي قادرة على معالجة التحديات الأكبر في التاريخ.

Related Links