هندسة AMD الجديدة CDNA 4 تعزز أداء عمليات الضرب المصفوفي وتُحافظ على تفوقها في الحوسبة المتجهة
إعلان AMD عن معمارية CDNA 4 أعلنت شركة AMD عن معماريتها الجديدة لوحدات معالجة الرسومات (GPUs) الموجهة للأداء الحسابي، والتي تحمل اسم CDNA 4. هذه المعمارية تمثل تحديثًا معتدلًا على معمارية CDNA 3، وتركز بشكل رئيسي على تعزيز أداء عمليات الضرب المصفوفي باستخدام بيانات بدقة أقل. هذه العمليات تعتبر مهمة للغاية في حملات التعلم الآلي، حيث يمكن الحفاظ على درجة دقيقة قابلة للقبول حتى مع استخدام أنواع بيانات ذات دقة منخفضة. الهيكل العام لـ CDNA 4 معمارية CDNA 4 تستخدم نفس التصميم الكلي تقريبًا لـ CDNA 3، وهو تصميم يتكون من شرائح موزعة (chiplets). تتكون الشرائح الحسابية (Accelerator Compute Dies أو XCDs) من وحدات حساب CDNA وتلعب دورًا مشابهًا لدور شرائح المعالج المركزية (Core Complex Dies أو CCDs) في منتجات AMD للمعالجات المركزية. يتضمن هذا التصميم ثمانية XCDs فوق أربع شرائح أساسية تحقق 256 ميجابايت من ذاكرة الكاش الجانبي (side cache). يوفر نظام Infinity Fabric الوصول المتوافق إلى الذاكرة عبر النظام، والذي يمكن أن يمتد عبر عدة شرائح. مقارنة مع MI300X وBlackwell B200 مقارنةً بـ MI300X، الذي يستند إلى معمارية CDNA 3، فإن GPU المجهز بـ CDNA 4، MI355X، يقلل قليلاً من عدد وحدات الحساب (CUs) لكل XCD ويتعطل عن تشغيل المزيد من الوحدات للحفاظ على نسبة الإنتاج. هذا يجعل GPU الناتجة أقل عرضًا بشكل طفيف، لكنها تعوض الفجوة بسرعات ساعة أعلى. فيما يتعلق بـ Nvidia B200، فإن كل من MI355X وMI300X هما شرائح أكبر بكثير وتضمن عددًا أكبر بكثير من الوحدات الأساسية. رغم ذلك، فإن B200 تتبنى أيضًا استراتيجية الشرائح المتعددة، مبتعدة عن التقاليد الطويلة لتصميم الشرائح الموحدة (monolithic). التحسينات في عمليات الضرب المصفوفي مع معمارية CDNA 3، حققت AMD ميزة كبيرة في الأداء الإجمالي للمتجهات (vector throughput) مقارنة بـ Nvidia H100. ومع ذلك، كانت الأمور أكثر تعقيدًا في حملات التعلم الآلي بسبب النضج الكبير لنظام البرمجيات الخاص بنvidia وتركيزها الشديد على زيادة أداء الضرب المصفوفي (tensor cores). الآن، تقوم معمارية CDNA 4 بإعادة توازن وحداتها التنفيذية لاستهداف الضرب المصفوفي بدقة أقل بشكل أكثر فعالية. نتيجة لذلك، يزداد الأداء المصفوفي لكل CU في العديد من الحالات، حيث تتمكن وحدات CDNA 4 من مطابقة وحدات SM في B200 في الأداء بدقة FP6. ومع ذلك، فإن B200 تظهر تركيزًا أقوى على الأداء المصفوفي بدقة منخفضة في مجموعة واسعة من أنواع البيانات بحجم 16 و8 بت. الأداء الإجمالي لعمليات المتجهات في ما يتعلق بعمليات المتجهات وأنواع البيانات بدقة أعلى، تواصل AMD تحقيق ميزة ضخمة. يحتوي كل CU في CDNA 4 على 128 مسار FP32 (lane)، مما يوفر 256 FLOP في كل دورة عندما يتم حساب عمليات FMA. على الرغم من أن MI355X لديها عدد أقل من CUs مقارنة بـ MI300X، فإن السرعات العالية للساعة تمكنها من الحفاظ على ميزة ضخمة في الأداء الإجمالي للمتجهات مقارنة بـ Nvidia Blackwell. الذاكرة المحلية المشتركة (LDS) توفر GPUs ذاكرة محلية مشتركة (LDS) للمجموعات المحلية من الخيوط (threads). في CDNA 3، كان حجم LDS 64 كيلوبايت مع نطاق قراءة يبلغ 128 بايت في كل دورة. في CDNA 4، زادت سعة LDS إلى 160 كيلوبايت وضعف نطاق القراءة إلى 256 بايت في كل دورة. هذا يسمح للبرمجيات بحفظ المزيد من البيانات بالقرب من وحدات التنفيذ، مما يزيد من كفاءة الأداء. مثلاً، يمكن لـ kernel أن يعمل على عشر مجموعات عمل (workgroups) على CU في CDNA 4، مقابل أربع فقط في CDNA 3. تحسينات في ذاكرة DRAM لتقديم بيانات بنطاق واسع لشبكات الوحدات الحسابية، يستخدم MI355X نفس التصميم الكلي تقريبًا لـ MI300X، مع بعض التحسينات. تم ترقية نظام ذاكرة DRAM لاستخدام HBM3E، مما يوفر زيادة كبيرة في نطاق البيانات وسعة الذاكرة مقارنة بسابقه. هذا الحدث يحافظ على تقدم AMD على منافستها Nvidia. بينما تصل S200 إلى 180 جيجابايت و7.7 تيرا بايت في الثانية من النطاق، فإن MI355X تصل إلى 288 جيجابايت و8 تيرا بايت في الثانية. بالإضافة إلى ذلك، يساعد النطاق الأعلى من HBM3E في تحسين نسبة الأداء الحاسوبي إلى النطاق الترددي للذاكرة. الاستراتيجية العامة تختلف التغييرات في CDNA 4 بشكل كبير عن التغييرات الشاملة التي تمت في CDNA 2 وCDNA 3. بدلاً من تغيير استراتيجيتها الكبرى، قامت AMD بتعديل CDNA 3 لتحسين أدائها. القليل من الوحدات الحسابية ذات السرعات العالية أكثر سهولة في الاستخدام، والذاكرة ذات النطاق الترددي الأعلى يمكن أن تساعد في ذلك أيضًا. زيادة الأداء المصفوفي يساعد AMD في المنافسة مع Nvidia في حملات التعلم الآلي. تقييم الخبراء يعتقد الخبراء أن استراتيجية AMD في هذا الجيل لها نقاط تشابه مع استراتيجية Nvidia. بينما تظل وحدات SM في Blackwell متطابقة تقريبًا من حيث تنفيذ المتجهات مقارنة بـ Hopper، فإن التحسينات تركز بشكل أكبر على الجانب المصفوفي. يبدو أن AMD قد وجدت صيغة ناجحة مع CDNA 3، خاصة مع احتلال MI300A، شقيقة MI300X، المرتبة الأولى في قائمة TOP500 لأقوى أجهزة الكمبيوتر الفائقة في يونيو 2025. بناءً على هذه النجاحات، يمكن أن تكون استراتيجية التطوير الحالية لـ CDNA 4 آمنة ومجزية. نبذة عن AMD AMD هي إحدى الشركات الرائدة في مجال صناعة المعالجات والشرائح الإلكترونية. تأسست الشركة في عام 1969، وتعتبر منافسًا رئيسيًا لشركات مثل Intel وNvidia. تركز AMD على تقديم حلول حاسوبية عالية الأداء وفعالة من حيث energia، وتتميز منتجاتها بقدرة تكيفية عالية وأداء متميز في مجموعة واسعة من التطبيقات، بما في ذلك الحوسبة الفائقة والتعلم الآلي والألعاب.