HyperAIHyperAI

Command Palette

Search for a command to run...

أداء NVIDIA DGX Spark يُمكّن من تنفيذ مهام الذكاء الاصطناعي المكثفة بفعالية محلية تتطلب مهام تطوير الذكاء الاصطناعي الحديثة كميات هائلة من الذاكرة وبيئات برمجية لا تتوفر في الأجهزة المكتبية أو أجهزة الكمبيوتر الشخصية، ما يدفع المطورين إلى الانتقال إلى السحابة أو مراكز البيانات. لكن NVIDIA DGX Spark يقدّم بديلاً مباشراً، كحاسوب فائق صغير مدعوم بمعالج Blackwell، ويتميز بأداء ذكاء اصطناعي يبلغ 1 بيتافلوب في الدقة FP4، وذاكرة موحدة متناسقة بسعة 128 جيجابايت، وعرض نطاق تردّد ذاكرة يصل إلى 273 جيجابايت/ثانية، بالإضافة إلى تثبيت بيئة البرمجيات الخاصة بالذكاء الاصطناعي من NVIDIA بشكل مسبق. بفضل هذه المواصفات، يمكن للمطورين تنفيذ مهام حسابية مكثفة مثل التخصيص الدقيق (fine-tuning)، وإنشاء الصور، وتحليل البيانات، والتنفيذ (inference) مباشرة على جهازهم المحلي، دون الحاجة إلى الاعتماد على السحابة أو الانتظار في طوابير مراكز البيانات. أداء التخصيص الدقيق على DGX Spark يُعد التخصيص الدقيق لنموذج مُدرّب مسبقاً من المهام الشائعة بين مطوري الذكاء الاصطناعي. لقياس أداء DGX Spark، أجرينا ثلاث مهام تخصيص باستخدام أساليب مختلفة: التخصيص الكامل، وLoRA، وQLoRA. في التخصيص الكامل لنموذج Llama 3.2B، بلغت السرعة القصوى 82,739.2 رمزًا في الثانية. عند استخدام LoRA لتخصيص نموذج Llama 3.1 8B، وصلت السرعة القصوى إلى 53,657.6 رمزًا في الثانية. أما عند تطبيق QLoRA على نموذج Llama 3.3 70B، فقد وصلت السرعة القصوى إلى 5,079.4 رمزًا في الثانية. وتكمن أهمية هذه النتائج في أن هذه المهام تتطلب كميات ضخمة من الذاكرة، ولا يمكن تنفيذها على بطاقات رسوميات استهلاكية بسعة 32 جيجابايت. قدرات DGX Spark في إنشاء الصور تتطلب نماذج إنشاء الصور تحسينات مستمرة في الدقة والدقة العالية والسرعة. ويعزز DGX Spark هذه القدرات بفضل ذاكرته الكبيرة وقوته الحسابية العالية، ما يسمح بتشغيل نماذج عالية الدقة ودقة FP4، التي تُسرّع عملية التوليد. باستخدام نموذج Flux.1 12B بدقة FP4، يمكن لـ DGX Spark إنتاج صورة بدقة 1024×1024 كل 2.6 ثانية. كما يدعم النظام تشغيل نموذج SDXL 1.0 بدقة BF16، ويُنتج سبع صور بدقة 1024×1024 في الدقيقة. استخدام DGX Spark في علوم البيانات يدعم DGX Spark مكتبات CUDA-X الأساسية مثل NVIDIA cuML وcuDF، مما يسرّع خوارزميات التعلم الآلي وتحليل البيانات. يمكن لـ DGX Spark معالجة مجموعة بيانات بحجم 250 ميجابايت باستخدام خوارزمية UMAP في 4 ثوانٍ، وHDBSCAN في 10 ثوانٍ. كما يُسرّع cuDF العمليات الشائعة في pandas مثل الدمج (joins) وطرق المعالجة النصية، حيث تُنفّذ عمليات على بيانات بحجم عشرات الملايين من السجلات في ثوانٍ معدودة. أداء التنفيذ (Inference) على DGX Spark يُدعم على DGX Spark تنسيق FP4، وخاصةً التنسيق NVFP4 الذي يوفر دقة قريبة من FP8 مع انخفاض بنسبة أقل من 1% في الدقة، مع تقليل حجم البيانات بشكل كبير، ما يُحسّن الأداء. نموذج Qwen3 14B بتنسيق NVFP4 وبيئة TRT-LLM حقق سرعة معالجة مدخلات تصل إلى 5,928.9 رمزًا في الثانية. نموذج GPT-OSS-20B بتنسيق MXFP4 وبيئة llama.cpp حقق 3,670.4 رمزًا في الثانية. وعند توصيل جهازي DGX Spark معًا عبر شرائح ConnectX-7، تم تشغيل نموذج Qwen3 235B، الذي يتطلب أكثر من 120 جيجابايت من الذاكرة، بسرعة توليد 11.73 رمزًا في الثانية. كما يُظهر النموذج المُعدّل NVFP4 من Nemotron Nano 2 أداءً متميزًا، مع تحقيق أداءً يصل إلى ضعف السرعة مع الحفاظ على الدقة. مع دعم تنسيقات 4 بت متعددة، وبيئات تشغيل متنوعة مثل TRT-LLM وllama.cpp وvLLM، يُعد DGX Spark منصة مثالية لتطوير وتجريب نماذج الذكاء الاصطناعي بسرعة وفعالية، حتى في البيئات المحلية.

تُعدّ وحدة NVIDIA DGX Spark حلاً متكاملاً لتطوير الذكاء الاصطناعي على المستوى المحلي، وتُقدّم أداءً يُقارن بأداء الحوسبة السحابية أو مراكز البيانات، لكن دون الحاجة إلى نقل البيانات أو الانتظار في طوابير الحوسبة. تم تصميم هذه الوحدة الصغيرة كـ "حاسوب فائق" مدمج، مدعوم بمعالجات Blackwell، ويتميز بأداء ذكاء اصطناعي يبلغ 1 بيتافلوب في الدقة FP4، وذاكرة موحدة متماسكة بسعة 128 جيجابايت، وعرض نطاق تردّد ذاكرة يبلغ 273 جيجابايت/ثانية، إلى جانب تثبيت بيئة برمجيات الذكاء الاصطناعي من NVIDIA بشكل مسبق. فيما يتعلق بمهام التخصيص (Fine-tuning)، أظهرت DGX Spark أداءً متميزًا حتى مع النماذج الضخمة. فعند تخصيص نموذج Llama 3.2B باستخدام التخصيص الكامل، حققت ذروة معالجة تبلغ 82,739.2 رمزًا في الثانية، بينما وصلت تخصيص نموذج Llama 3.1 8B باستخدام تقنية LoRA إلى 53,657.6 رمزًا/ثانية، وتمكّنت من تخصيص نموذج Llama 3.3 70B باستخدام QLoRA بسرعة 5,079.4 رمزًا/ثانية. هذه المهام تتطلب ذاكرة كبيرة جدًا، ولا يمكن تنفيذها على بطاقات رسوميات استهلاكية بسعة 32 جيجابايت. في مجال توليد الصور، تُظهر DGX Spark قدرات قوية في التعامل مع نماذج عالية الدقة. باستخدام نموذج Flux.1 12B بدقة FP4، تم إنتاج صورة بحجم 1024×1024 كل 2.6 ثانية. كما تمكّنت من توليد سبعة صور بحجم 1024×1024 في الدقيقة باستخدام نموذج SDXL 1.0 بدقة BF16، بفضل سعة الذاكرة الكبيرة والقدرة الحسابية العالية. في مجال علوم البيانات، تدعم DGX Spark مكتبات CUDA-X مثل cuML وcuDF، مما يُسرّع معالجة الخوارزميات التعلّمية والتحليلات على البيانات. فمثلاً، تم معالجة مجموعة بيانات بحجم 250 ميجابايت باستخدام خوارزمية UMAP في 4 ثوانٍ، وHDBSCAN في 10 ثوانٍ، بينما تم تنفيذ عمليات تحليل بيانات مثل الدمج والطرق النصية على بيانات بحجم 5 جيجابايت في 11 ثانية فقط. أما في مهام الاستدلال (Inference)، فإن دعم نموذج FP4 (بشكل خاص NVFP4) يُتيح أداءً عاليًا مع دقة قريبة من FP8 (بفقدان أقل من 1%)، مع تقليل حجم النموذج. أظهرت الأداء في توليد الرموز (Token generation) وسرعة معالجة المطالبات (Prompt processing) تفوقًا ملحوظًا. فمثلاً، نموذج Qwen3 14B بلغت سرعة معالجة المطالبات 5,928.9 رمزًا/ثانية، وسرعة توليد الرموز 22.71 رمزًا/ثانية. كما تم اختبار نموذج Qwen3 235B على نظام مكوّن من وحدتين من DGX Spark متصلتين عبر شرائح ConnectX-7، حيث تمكّن من توليد 11.73 رمزًا/ثانية، وهو أداء يُعدّ مذهلًا لبيئة محلية. تم تحسين أداء النموذج Nemotron Nano 2 باستخدام التنسيق NVFP4، مما يُتيح تضاعف الأداء تقريبًا مع الحفاظ على الدقة. يمكن تنزيل النماذج من Hugging Face أو عبر NVIDIA NIM. باختصار، تُقدّم DGX Spark بيئة متكاملة وفعّالة لتطوير الذكاء الاصطناعي على المستوى المحلي، تُمكّن المطورين من العمل مع نماذج ضخمة، ومهام حسابية مكثفة، وتطبيقات متقدمة دون الاعتماد على السحابة، مما يُسرّع من دورة التصميم والتجريب.

الروابط ذات الصلة