HyperAIHyperAI

Command Palette

Search for a command to run...

إنفيديا تطلق بنية الحوسبة الهجينة للترجمة الفورية فيرا روبن وLPX، مستهدفة عصر الذكاء الاصطناعي منخفض الكمون والوكلاء الآليين

في مؤتمر NVIDIA GTC لهذا العام، عرضت شركة NVIDIA مجموعة معمارية جديدة موجهة لسيناريوهات الاستدلال بالذكاء الاصطناعي من الجيل القادم تتألف من وحدة Vera Rubin NVL72 GPU ونظام استدعاء Groq 3 LPX. يهدف هذا المزيج بشكل أساسي إلى معالجة التناقض الحرج المتزايد في تطبيقات الذكاء الاصطناعي الحالية، وهو كيفية ضمان معدلات تدفق عالية على نطاق واسع مع تحقيق تجربة تفاعلية منخفضة الكمون وقابلة للتنبؤ بها. يُعد نظام LPX منصة تسريع للاستدلال مصممة للنشر على مستوى الرفوف الخدمية. يتكون كل رف من 32 صينية حوسبة مُبرَّدة بالسائل، حيث يضمّ كل منها ثمانية مسرعات ووحدات معالجة لغوية (LPU)، بالإضافة إلى معالجات المضيف ووحود توسيع الاتصالات. ومن خلال تصميم خالي من الكابلات وربط عالي النطاق العريض، يمكن لهذه النظام تحقيق نقل بيانات فعال بين الصواني المختلفة وحتى عبر الرفوف، مما يقلل من تكاليف الاتصال وتقلبات الكمون في عمليات الاستدلال الموزعة. على المستوى المعماري، يكمن جوهر LPX في رقاقة Groq 3 الجديدة الخاصة بـ LPU. وعلى عكس وحدات GPU التقليدية التي تركّز على قوة الحساب القصوى، تُركِّز وحدة LPU أكثر على "التنفيذ القاطع" والتحكم في تدفّق البيانات؛ حيث يقوم المترجم بتوحيد جدولة العمليات الحسابية والذاكرة والاتصالات لتجنب تقلبات الكمون الناتجة عن عدم اليقين أثناء التشغيل. وتعتمد هذه الرقاقة ذاكرة وصول عشوائي ثابتة كبيرة السعة (SRAM) كعنصر تخزين رئيسي للعمل داخل الشريحة نفسها، كما تعتمد على الجدول الصريح للبيانات لتقليل فقدان الأداء الناجم عن إخفاقات التخزين المؤقت. وهذا التصميم مثالي خصوصًا لمراحل الاستدلال القائمة أساسًا على فك التشفير (Decode)، وهي المرحلة التي تمثل حالياً الاختناقة الرئيسية في تجارب نماذج اللغة الكبيرة التفاعلية. مع انتقال تطبيقات الذكاء الاصطناعي من المعالجة غير المتزامنة نحو التفاعل الفوري، يشهد حمل الاستدلال تحولاً هيكلياً. فمثلاً، تتطلب أدوات مساعدة البرمجة ومساعدي المحادثة وأنظمة الوكيل متعددة الخطوات حساسية شديدة تجاه "وقت ظهور أول رمز (token)" و"كمون ظهور الرموز اللاحقة". وفي الوقت نفسه، فإن السياقات الأطول وسلاسل الاستدلال الطويلة جعلت من نقل البيانات وعرض نطاقي الذاكرة عوامل قيد جديدة. وفي ظل هذا السياق، أصبح من الصعب على أي معيار عتادي واحد أن يحقق التوازن المطلوب بين معدل التدفق وزمن الاستجابة. الإجابة المقدمة من NVIDIA هي "الاستدلال المتنوع". ففي هذا النمط، تعالج وحدات Vera Rubin GPU المهام ذات معدل التدفق العالي مثل التعامل مع سياقات واسعة وحسابات الانتباه، بينما يُكرّس نظام LPX حساباته للمرحلة الحساسة للكُمون المتمثلة في فك التشفير، مثل تنفيذ شبكات التغذية الأمامية (FFN) ووحدات الخبراء في نموذج MoE. ويعمل الاثنان جنبًا إلى جنب عبر روابط سريعة جدًا للحفاظ على القدرة الكلية على التدفق مع تحسين أداء التفاعل بشكل كبير. تنطبق هذه البنية أيضًا على التطبيقات الناشئة من نوع الوكلاء (Agent). ففي سيناريوهات الاستدلال متعدد الجولات واستدعاء الأدوات ودورات التغذية الراجعة، يتراكم الكمون في كل خطوة ويؤثر مباشرةً في النهاية على تجربة المستخدم. وقد وفرت قدرة LPX على التنفيذ منخفض التقلب والقابل للتنبؤ به ميزة مهمة كمكمل لهذه السيناريوهات. بشكل عام، لا يمثل مزيج Vera Rubin وLPX مجرد ترقية للعناصر العتادية فحسب، بل يجسد تحولًا في فلسفة تصميم أنظمة استدلالية الذكاء الاصطناعي: الانتقال من التحسين القائم على مؤشر أداء واحد إلى تحقيق توازن متعدد الأبعاد يخدم سيناريوهات الاستخدام الواقعية. ومع تحوّل الذكاء الاصطناعي من مرحلة "إنتاج المحتوى" إلى مرحلة "تنفيذ المهام"، قد تصبح هذه البنية شكلاً محوريًا للبنية التحتية للجيل القادم من الذكاء الاصطناعي.

الروابط ذات الصلة

إنفيديا تطلق بنية الحوسبة الهجينة للترجمة الفورية فيرا روبن وLPX، مستهدفة عصر الذكاء الاصطناعي منخفض الكمون والوكلاء الآليين | القصص الشائعة | HyperAI