NVIDIA TensorRT for RTX يُحدث ثورة في أداء الذكاء الاصطناعي على أجهزة المستهلك عبر التحسين التلقائي أثناء التشغيل
NVIDIA TensorRT for RTX يُقدّم حلًا ثوريًا لمشكلة التنازل بين الأداء والقابلية للنشر في تطبيقات الذكاء الاصطناعي على الأجهزة الاستهلاكية. يُعدّ هذا المكتبة الخفيفة، التي لا تتجاوز 200 ميجابايت، مُحسّنًا لحظة التنفيذ (JIT) يُنشئ محركات تنفيذ في أقل من 30 ثانية، مما يجعلها مثالية للتطبيقات الحية والتفاعلية على أجهزة المستخدمين. الفكرة المحورية هي "الاستدلال التكيفي" (Adaptive Inference)، حيث يُحسّن المحرك نفسه تلقائيًا أثناء التشغيل بناءً على معدّل تشغيل الجهاز الفعلي، دون تدخل من المطوّر. يتم تحقيق هذا التحسين عبر ثلاث ميزات متكاملة: تخصيص خوارزميات الأشكال الديناميكية، والرسوم البيانية CUDA المدمجة، والذاكرة المؤقتة للتشغيل. تُولّد الخوارزميات المخصصة تلقائيًا عند ظهور أشكال إدخال جديدة، وتُخزّن للاستخدام اللاحق، مما يضمن أداءً عاليًا حتى مع تغيرات في الأحجام (مثل دقة الصور أو حجم الدفعات). الرسوم البيانية CUDA تقلل من زمن تشغيل الخوارزميات الفردية، الذي قد يصل إلى 15 ميكروثانية، من خلال دمج العمليات في رسم بياني واحد، مما يُقلل من عبء المعالج المركزي ويُسرّع التسريع، خصوصًا في النماذج التي تحتوي على عدد كبير من العمليات الصغيرة. أخيرًا، الذاكرة المؤقتة للتشغيل تحفظ هذه الخوارزميات المخصصة بين الجلسات، مما يُقلل زمن التجميع من 31.92 ثانية إلى 1.95 ثانية (بمعدل 16 مرة)، ويسمح للتطبيق بالبدء بأقصى أداء فورًا في الجلسة التالية. مقارنة مع النماذج الثابتة التي تتطلب بناء محركات مخصصة لكل تكوين GPU، تُظهر TensorRT for RTX تفوقًا ملحوظًا. في اختبار على نموذج FLUX.1 [dev] بدقة FP8 وبأبعاد 512×512 على RTX 5090، تجاوزت الأداء التكيفي الأداء الثابت بـ 1.32 مرة في التكرار الثاني، مع تسريع في التجميع عند الجلسة التالية. كما تُظهر النتائج تحسنًا كبيرًا في النماذج التوليدية مثل النماذج التوليدية للصور (diffusion)، حيث تُحسّن الخوارزميات المخصصة الأداء بشكل مستمر مع تكرار الاستخدام. المطورون يمكنهم تفعيل هذه الميزات بسهولة من خلال إعداد ملفات معايرة شكل ديناميكي، وتفعيل استراتيجية التخصيص التلقائي، وتمكين الرسوم البيانية CUDA والذاكرة المؤقتة. يمكن حفظ ملفات الذاكرة المؤقتة مع التطبيق، مما يسمح للمستخدمين ببدء الاستخدام بأقصى أداء من اللحظة الأولى، حتى دون تجميع مسبق. بفضل هذه التقنيات، أصبح من الممكن بناء محرك واحد مُحمول، ونشره على أي جهاز، مع ضمان أداء يقترب من الأداء الثابت، دون الحاجة إلى تخصيص يدوي أو إنشاء محركات متعددة. هذا يُبسّط تطوير التطبيقات، ويُعزز الأداء، ويُعزز الخصوصية من خلال تشغيل النماذج محليًا على أجهزة المستخدمين. لمزيد من التفاصيل، يمكن زيارة مكتبة NVIDIA/TensorRT-RTX على GitHub، أو مشاهدة الفيديو التوضيحي للعملية الحية.
