جوجل تُظهر قدراتها في التوسع في معالجة الذكاء الاصطناعي وتحسين الكفاءة في التوليد
أظهرت جوجل خلال مؤتمر AI Infra Summit في سانتا كلارا تفاصيل مبهرة عن قدراتها في معالجة الذكاء الاصطناعي، لا سيما في مجال الاستدلال (inference)، الذي أصبح محورًا حاسمًا في توسعة نماذج الذكاء الاصطناعي الحديثة. تُظهر البيانات التي عرضها مارك لوهماير، المدير العام لمنصات الذكاء الاصطناعي والحوسبة في جوجل، نموًا هائلاً في معدل الاستدلال، حيث ارتفع عدد الرموز (tokens) المعالجة شهريًا من 9.7 تريليون في أبريل 2024 إلى أكثر من 1.46 بيليون تريليون في أغسطس 2025، بزيادة قدرها 150 مرة تقريبًا في عام واحد فقط. لتحقيق هذا الأداء، تعتمد جوجل على أسطول ضخم من وحدات المعالجة المخصصة للذكاء الاصطناعي (TPUs)، لا سيما الجيل الجديد "Ironwood" TPU v7p، الذي يوفر 5 أضعاف الأداء القصوى و6 أضعاف سعة الذاكرة عالية السرعة (HBM) مقارنة بنظيره "Trillium". يمكن لوحدة Ironwood واحدة، عند توصيلها بشبكة اتصال بصرية فريدة (OCS) ذات قدرة إعادة تكوين ديناميكية، أن تدعم ما يصل إلى 9,216 وحدة TPU في تكوين واحد، بسعة ذاكرة HBM تصل إلى 1.77 بيتابايت. هذا يفوق بكثير أنظمة NVIDIA المتميزة، مثل تلك القائمة على 144 وحدة Blackwell، ويُظهر تفوقًا هندسيًا كبيرًا في التصميم المعماري. تُعد تقنية التبريد السائل، التي تطورها جوجل منذ 2014، عنصرًا حاسمًا في دعم هذا الأداء، حيث وصلت قدرتها التبريدية إلى غيغافات في 2024، أي 70 مرة أكثر من أي أسطول آخر في العالم. وستُشارك جوجل مواصفات وحدات التبريد هذه في مشروع Open Compute Project، مما يعزز الشفافية في البنية التحتية للذكاء الاصطناعي. على صعيد البرمجيات، أطلقت جوجل منصة استدلال متكاملة تُعرف بـ GKE Inference Gateway، تستخدم توازنًا ذكيًا للحمل يعتمد على الذكاء الاصطناعي لتوزيع الطلبات على وحدات المعالجة (XPU) بذكاء، مما يقلل من التأخير ويزيد من الاستخدام الفعّال. كما تُستخدم تقنية "Anywhere Cache"، وهي خدمة تخزين مؤقت على ذاكرة فلاش، لخفض زمن الوصول بنسبة 70% داخل منطقة جوجل، و96% بين المناطق، مع خفض تكاليف الشبكة. وتم دمج خدمة "Managed Lustre" كنظام ملفات عالي الأداء لتزويد وحدات المعالجة بالبيانات بكفاءة. أحد أهم الابتكارات هو تقنية "الاستدلال التخميني" (speculative decoding)، التي استخدمتها جوجل لتحسين أداء نموذج Gemini، حيث خفضت استهلاك الطاقة بنسبة 33 ضعفًا، مع تحسين الأداء. هذا يمثل فرقًا جوهريًا في التكلفة والكفاءة، خاصة أن استهلاك الطاقة يرتبط مباشرة بالربحية في عمليات الاستدلال. بالإضافة إلى توسعة استخدام TPUs، أشار لوهماير إلى أن جوجل تبني نهجًا هجينًا يدمج بين TPUs ووحدات NVIDIA GPU، وعرض مثيلات حاسوبية مدعومة بـ Blackwell RTX 6000 Pro وB200، مع دعم تطبيق Dynamo من NVIDIA كخيار في بيئة الاستدلال. رغم أن جوجل تفضل استخدام بنيتها البرمجية الخاصة، إلا أن التقارير تشير إلى أن هذا النظام قد يكون قابلاً للتشغيل على وحدات NVIDIA وAMD، وهو ما يعكس توجهًا نحو المرونة والتوافق. بفضل هذه المبادرات، تؤكد جوجل أن عملاء Google Cloud يمكنهم خفض زمن الاستجابة بنسبة 96%، وزيادة الإنتاجية بنسبة 40%، وتقليل تكلفة معالجة كل رمز بنسبة 30%. هذه الأرقام ليست مجرد إحصائيات، بل تمثل تحولًا جذريًا في كفاءة البنية التحتية للذكاء الاصطناعي، مما يعزز مكانتها كرائدة في تطوير البنية التحتية لعصر الذكاء الاصطناعي.