HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA تطلق ميزة AutoDeploy لتسريع تحسين تشغيل النماذج الكبيرة بتقنية TensorRT LLM

NVIDIA أعلنت عن إتاحة ميزة "AutoDeploy" كنسخة تجريبية ضمن منصة TensorRT LLM، والتي تهدف إلى تبسيط وتسريع عمليات نشر نماذج الذكاء الاصطناعي الكبيرة (LLMs). تُعدّ هذه الميزة خطوة جوهرية نحو تحويل عملية تحسين الاستدلال (inference) من نموذج يعتمد على العمل اليدوي إلى نموذج مدعوم بالمحول (compiler-driven)، حيث يتم فصل كتابة النموذج عن تحسين أدائه للاستدلال. في السابق، كان دمج ميزات مثل إدارة ذاكرة التخزين المؤقت (KV cache)، تقسيم الوزن بين وحدات المعالجة الرسومية (GPU)، ودمج العمليات (kernel fusion) يتطلب إعادة كتابة كاملة للنموذج، وهو ما يستغرق أسابيع أو أشهر، خاصة مع النماذج الحديثة أو البحثية. أما AutoDeploy، فيقوم تلقائيًا باستخراج الرسم البياني للحساب من نموذج PyTorch جاهز (مثل تلك المتوفرة على Hugging Face)، ثم يُطبّق سلسلة من التحويلات التلقائية لتحويله إلى رسم بياني مُحسّن للتشغيل على TensorRT LLM. تُدعم الميزة حاليًا أكثر من 100 نموذج نصي-إلى-نصي، مع دعم أولي لنموذجات متعددة الوسائط (VLMs) ونماذج الحالة المكانية (SSMs)، بالإضافة إلى موديلات مثل Llama وNVIDIA Nemotron 3 Nano. تم استخدام AutoDeploy بنجاح في دعم Nemotron 3 Nano، وهو نموذج هجين مبني على "مزيج الخبراء" (MoE)، حيث تم إتمام الإطلاق في غضون أيام بدلًا من أسابيع، مع أداء يُوازي النموذج المُحسّن يدويًا على وحدة معالجة NVIDIA Blackwell DGX B200، حيث حقق ما يصل إلى 350 كلمة في الثانية لكل مستخدم، و13,000 كلمة في الثانية في السيناريوهات عالية الأداء. كما تم دعم نموذج Nemotron-Flash، الذي يدمج أنواعًا متعددة من "مُعاملات الخلط" (token mixers) مثل الانتباه الخطي (DeltaNet) والانتباه التلقائي (Mamba2)، دون الحاجة إلى إعادة كتابة مخصصة. إذ تم إعادة استخدام التحسينات الحالية وتوسيعها بسهولة لدعم طبقات جديدة، مما أدى إلى إدراج النموذج في غضون أيام، وتحقيق أداءً يتفوق على نموذج Qwen2.5 3B Instruct في اختبارات الأداء، خاصة في السيناريوهات ذات الطول الطويل للنص. يتم تحقيق هذه النتائج من خلال مراحل متعددة: أولاً، يتم التقاط الرسم البياني باستخدام torch.export، ثم تطبيق تطابق نمطي لتمثيل المكونات الشائعة (مثل الانتباه، RoPE، طبقات SSM) كعمليات موحدة وسهلة التحليل. ثانياً، يتم تطبيق عمليات التجميع (fusion)، وتقسيم النموذج عبر GPU باستخدام تلميحات Hugging Face، مع دمج خوارزميات مُحسّنة. ثالثاً، يتم التكامل التلقائي مع ميزة التخزين المؤقت، ودعم الانتباه المرن، وتشغيل متعدد التدفقات (multistream)، بالإضافة إلى دعم ميزات متقدمة مثل التشفير التخميني (speculative decoding) وتحسين التوقيت. تُعدّ AutoDeploy مثالًا على تحوّل جوهري في تطوير نماذج الذكاء الاصطناعي: لا حاجة الآن لكتابة كود مخصص لكل نموذج. يمكن للباحثين والمهندسين التركيز على التصميم، بينما يُعالج المحول والبيئة التشغيلية جميع الجوانب الأداء. هذا يعزز السرعة في التجريب، ويغطي طيفًا واسعًا من النماذج، بما في ذلك تلك التي تتطور بسرعة في المجال المفتوح. الميزة متاحة الآن للتجريب، وتشجع المجتمع على المشاركة من خلال الوثائق والعينات المتاحة.

الروابط ذات الصلة