أطلق NVIDIA تحسينات جذرية في أداء النماذج الذكية على الحافة بزيادة 7x في أداء الذكاء الاصطناعي التوليدي على منصة Jetson AGX Thor
أعلنت نفيديا عن تحسينات كبيرة في أداء نماذج الذكاء الاصطناعي التوليدي (Gen AI) على منصة Jetson AGX Thor، حيث حققت منصة Jetson Thor الآن زيادة بنسبة 7x في الأداء مقارنة بالإصدار الأولي في أغسطس 2025، بفضل تحديثات برمجية مستمرة. هذا التقدم يأتي ضمن سلسلة من التحسينات التي تُظهر التزام نفيديا بتحسين الأداء عبر البرمجيات، كما حدث سابقًا مع Jetson Orin وJetson AGX Xavier. أحد أبرز التطورات هو إصدار حزمة vLLM الجديد، الذي عزز أداء Jetson Thor بنسبة 3.5x على نفس النموذج ونفس مستوى التكميم مقارنة بأداء الإطلاق. على سبيل المثال، ارتفع عدد الرموز الخارجة في الثانية (tokens/sec) من 41.5 إلى 122.6 عند تشغيل نموذج Llama 3.3 70B، ومن 40.2 إلى 91.5 عند تشغيل DeepSeek R1 70B، مع تكوين يشمل طول سلسلة 2048 وطول مخرج 128 وحدة توازي 8 ووضع طاقة MAXN. بالإضافة إلى ذلك، دعمت Jetson Thor تقنية التفكير التخميني (speculative decoding) باستخدام نموذج Eagle 3، مما أدى إلى تسريع أداء Llama 3.3 70B إلى 88.62 رمزًا في الثانية، محققة بذلك زيادة بنسبة 7x مقارنة بالإصدار الأولي. هذه التقنية تعتمد على استخدام نموذج صغير سريع لإنشاء تخمينات أولية للرموز، ثم التحقق منها عبر النموذج الكبير، مما يقلل زمن الانتظار ويحسن الكفاءة. تُتيح منصة Jetson Thor دعمًا فوريًا (Day 0) للنماذج الحديثة مثل gpt-oss عبر llamacpp وollama، بالإضافة إلى دعم نماذج NVIDIA Nemotron خلال الأسبوع الأول من إصدارها، مما يتيح للمطورين تجربة أحدث النماذج فور إطلاقها. لتحقيق أقصى أداء، يُنصح باستخدام تقنيتي التكميم والتخمين التخميني معًا. التكميم يقلل حجم النموذج ويُسرّع المعالجة: فبدلاً من استخدام 16 بت (FP16/BF16)، يمكن استخدام FP8 لتقليل الحجم نصفًا مع الحفاظ على دقة عالية (انخفاض أقل من 1% في العادة)، أو استخدام W4A16 (4 بت للوزن، 16 بت للتحفيز) لتشغيل نماذج تصل إلى 175 مليار معلمة على جهاز واحد، مع إمكانية تشغيل نموذجين كبيرين معًا. الاختيار الأمثل يبدأ بـ W4A16 لسرعته العالية وانخفاض استهلاك الذاكرة، وإذا كانت الدقة غير كافية في المهام المعقدة، يُنصح بالتحول إلى FP8. أما تقنية التفكير التخميني، فتُعد مفتاحًا لتحسين الأداء، خصوصًا مع نموذج Eagle 3، حيث حققت زيادة بنسبة 2.5x في الأداء على Llama 3.3 70B. لبدء العمل، تقدم نفيديا حزمة vLLM منفصلة محدثة شهريًا، مع دعم مدمج لـ Eagle 3. يُوصى بالبدء بوضع قاعدة أداء باستخدام النموذج بدقة عالية (FP16 أو FP8)، ثم تقليل الدقة تدريجيًا، واختبار الدقة في كل خطوة. وأخيرًا، اختبار الأداء باستخدام بيانات حقيقية تعكس البيئة التشغيلية. باستخدام هذه الخطوات، يمكن للمطورين تحقيق التوازن المثالي بين الجودة والأداء على Jetson AGX Thor، مما يجعلها منصة قوية لتطبيقات الذكاء الاصطناعي في الحافة.
