نVIDIA تطلق نموذج Data Flywheel لاكتشاف نماذج الذكاء الاصطناعي الصغيرة والفعالة تلقائيًا خلال عملية الاستدلال
تحسين وكالات الذكاء الصناعي من خلال تقطير النماذج باستخدام NVIDIA’s Data Flywheel Blueprint مع ازدياد استخدام الشركات للذكاء الصناعي الوكالي (Agentic AI)، تواجه الفرق تحديًا متزايدًا في توسعة التطبيقات الذكية مع إدارة تكاليف الاستدلال. النماذج اللغوية الكبيرة (LLMs) توفر أداءً قويًا ولكنها تتطلب تكاليف حاسوبية كبيرة، مما يؤدي غالبًا إلى زيادة زمن الاستجابة وتراكم التكاليف. من جهة أخرى، تبقى العديد من عمليات التطوير، مثل التقييم وجمع البيانات وضبط النماذج، يدوية بشكل كبير. هذه العمليات تستغرق وقتًا طويلاً، وهي صعبة التلقين ولا تتوسع بفعالية. بالإضافة إلى ذلك، تعتمد وكالات الذكاء الصناعي بشكل متزايد على نماذج متخصصة لمهام مثل التفكير وتوجيه الأدوات وإعداد التقارير، مما يجعل تقييمها وتخصيصها أمرًا صعبًا على نطاق واسع. حل NVIDIA: NVIDIA AI Blueprint للبيانات الدوارة (Data Flywheel) لت tackling هذا التحدي، أطلقت NVIDIA نظام NVIDIA AI Blueprint للبيانات الدوارة، وهو هندسة مرجعية مبنية على خدمات NVIDIA NeMo الميكروية. هذا النظام يمكن الفرق من تقطير نماذج LLM الكبيرة إلى نماذج أصغر وأقل تكلفة وأسرع الاستجابة دون التضحية بدقة النموذج، باستخدام بيانات التفاعل الحقيقية من وكالات الذكاء الصناعي. كيف يعمل النظام؟ 1. إدخال السجلات: يتم جمع سجلات الاستدعاء والاستجابة من النموذج الأساسي الكبير (مثل نموذج بحجم 70 مليار معلمة) في فهرس Elasticsearch. هذه السجلات تتبع التنسيق المتوافق مع OpenAI. 2. التسمية للتقسيم: يتم تسمية كل سجل بمتغيرات مثل workload_id، مما يتيح للنظام معالجة البيانات حسب المهمة لكل عقدة وكالة. 3. إنشاء مجموعات البيانات: يقوم المنسق بحذف التكرارات من السجلات وتحويلها إلى مجموعات بيانات متوافقة مع المهام لتدريب وتقدير النماذج. تُحفظ هذه المجموعات في NeMo Datastore، دون الحاجة إلى تسميات خارجية يدوية. 4. مهام التخصيص المشرف: يتم إطلاق مهام تخصيص مشرف باستخدام Adapters LoRA. كل مهمة تكتسب المعرفة من النموذج الأكبر وتنتج نماذج أصغر محددة للمهمة دون الحاجة إلى مجموعات بيانات معدة يدويًا. 5. تقييم الجولات: يقيم NeMo Evaluator عدة نماذج مستهدفة باستخدام ثلاث طرق تقييم: - التقييم بدون أمثلة (Zero-shot prompting): يتم تقييم النماذج على مهام مستدعاة من الإنتاج دون أمثلة سابقة. - التعلم السياقي (In-context learning): يتم إضافة أمثلة قليلة لكل استدعاء، مما يختبر مدى تحسن النموذج بالاستعانة بالسياق. - التخصيص المشرف مع LoRA (Supervised fine-tuning with LoRA): يتم تخصيص النماذج باستخدام Adapters LoRA ومجموعات بيانات محددة للمهمة، ثم تقييمها لقياس التحسينات. 6. التقييم والتكثيف: يتم تقييم نتائج النماذج باستخدام NeMo Evaluator، بما في ذلك قدرة النموذج ذات الحجم الكبير على الحكم، ثم يتم تجميع النتائج وإعادتها عبر Orchestrator API. 7. المراجعة والترقية: يمكن للمطورين والمشرفين الوصول برمجيًا إلى المؤشرات، تنزيل الأدوات، إطلاق تجارب متابعة، أو ترقية النماذج الأفضل أداءً إلى الإنتاج لاستبدال النموذج الأكبر. هذه الحلقة الكاملة يمكن جدولتها أو تفعيلها عند الطلب، مما يخلق نظامًا آليًا وقابلًا للتوسع يكشف بشكل مستمر وتدريجي عن نماذج أصغر وأسرع وأقل تكلفة بينما يحافظ على دقة النموذج الأكبر. تطبيق البلوغرام على استدعاء الأدوات الوكالية (Agentic Tool Calling) لفهم قيمة واستخدام هذا البلوغرام، تم تطبيقه على حالة استخدام ذات تأثير كبير: استدعاء الأدوات الوكالية. هذا مهم لوكالات الذكاء الصناعي التي يجب أن تتعامل بموثوقية مع الأنظمة الخارجية عبر استدعاءات API مهيكلة. بدأنا بالبناء على NVIDIA AI Blueprint للمساعدين الافتراضيين، وهو وكيل متعدد الأدوات صمم لأداء مهام دعم العملاء مثل أسئلة المنتجات، تتبع الطلبات، الاسترجاعات، والمحادثات العفوية. كان هذا الوكيل مدفوعًا في البداية بنموذج Llama-3.3-70B-instruct الذي حقق دقة عالية في استدعاء الأدوات. كنا نريد ضبط نموذج أصغر لتحقيق نفس الدقة مع تقليل التكلفة. لمحاكاة حركة المرور الإنتاجية، تم توليد استعلامات لغوية طبيعية بشكل مصطنع وتم التقاط سلوك استدعاء الأدوات بواسطة الوكيل في سجلات طلبات-استجابات متوافقة مع OpenAI. أصبحت هذه السجلات أساسًا لمجموعات التدريب والتقييم. استخدمنا هذا الإعداد لإجراء ثلاثة تجارب تحسين لتقييم أداء النماذج الأصغر: التقييم بدون أمثلة (Zero-shot prompting): تم تقييم النماذج على مهام شبيهة بالإنتاج بدون أمثلة سابقة. التعلم السياقي (In-context learning): تم إضافة أمثلة قليلة لكل استدعاء، مما اختبر مدى تحسن النموذج بالسياق. التخصيص المشرف مع LoRA (Supervised fine-tuning with LoRA): تم ضبط النماذج باستخدام Adapters LoRA على مجموعات بيانات مشتقة من السجلات الإنتاجية. تمكن NeMo Evaluator من تقييم جميع نتائج النماذج تلقائيًا دون الحاجة إلى تسميات بشرية. تم تسجيل المؤشرات الهيكلية مثل function_name_and_args_accuracy وtool_calling_correctness وتقديمها عبر Orchestrator API للمراجعة والمقارنة. هذا العملية بأكملها تم تلقينها تمامًا حتى يمكن للمطورين الوصول برمجيًا إلى تقارير التقييم لترقية النماذج الأفضل أداءً لاستبدال النموذج الأصلي. النتيجة: نموذج Llama-3.2-1B مخصص باستخدام SFT-LoRA حقق 98% من دقة استدعاء الأدوات للنموذج الأصلي بحجم 70 مليار معلمة. هذا تم بواسطة دورة متكررة من التخصيص والتقييم تلقائيًا، حيث تدفق المزيد من بيانات حركة المرور عبر البلوغرام. النموذج المحسّن يتطلب جهاز GPU واحدًا فقط لتقديم الخدمة، مقارنة بجهازين GPU للنموذج الأصلي Llama-3.3-70B. ضبط وتوفير البلوغرام لتشغيل NVIDIA’s Data Flywheel Blueprint، يجب عليك أولاً تجهيز بيئتك ونشر الخدمات المطلوبة. يمكن العثور على التعليمات التفصيلية في ملف readme بموقع GitHub، ولكن الخطوات الأساسية تشمل: إنشاء مفتاح API شخصي: لنشر خدمات NeMo، الوصول إلى النماذج المضيفة كـ NIM، وتحميل النماذج محليًا. نشر منصة خدمات NeMo الميكروية: تثبيت وتكوين Data Flywheel Orchestrator. بعد جاهزية البيئة، ستقوم بتخصيص النماذج والتدفقات باستخدام ملف config.yaml. هذا الملف يحدد كل شيء بدءًا من النماذج المراد نشرها وتقييمها إلى تكوينات التخصيص (مثل LoRA) والتقييم (مثل ICL، LLM-as-a-Judge). خطوات التكوين الأساسية: إعدادات النموذج: حدد النموذج المراد نشره وتقييمه، بما في ذلك اسم النموذج، طول السياق، عدد GPU، وغيرها من الخيارات. التخصيص: حدد معلمات التخصيص، مثل نوع التدريب، نوع التخصيص، حجم الدفعة، وعدد العصور التدريبية. إعدادات التعلم السياقي (ICL): حدد عدد الأمثلة القليلة المستخدمة ونوافذ السياق عند تقييم النماذج. إعدادات التقييم: ضبط كيفية تقسيم البيانات إلى مجموعات التحقق والاختبار لكل مهمة تقييم. تنفيذ البلوغرام بمجرد التكوين، يمكنك إطلاق المهمة عبر استدعاء بسيط للخدمة الميكروية. سيتم تقديم مؤشرات دقة استدعاء الأدوات بنجاح يمكن استخدامها للمقارنة بين أداء النماذج المختلفة. تقييم الحدث من قبل المختصين تلقى بلوغرام NVIDIA for Data Flywheel اعتمادًا مبكرًا من شركاء NVIDIA، الذين قاموا بتعديله لبناء حلقات دوارة خاصة بهم. على سبيل المثال: - Weights & Biases: قدمت نسخة مخصصة مع أدوات للتتبع والمراقبة وتتبع التجارب وإعداد التقارير. - Iguazio: قدمت نسخة مخصصة مع مكونات تدريب ومراقبة الذكاء الصناعي لتعزيز منصتها. - Amdocs: دمجت البلوغرام في منصتها amAIz، مما يسمح لها بالتحسين المستمر لأداء الوكيل. - EY: تعمل على دمج البلوغرام لتعزيز منصتها EY.ai Agentic Platform بالتحسين الموقت. - VAST: تصمم حلقات دوارة خاصة بها بدمج نظام VAST AI Operating System مع بلوغرام NVIDIA، مما يسرع تسليم خطوط ذكاء الأعمال لsectors مثل المالية والرعاية الصحية والبحث العلمي. الختام يمكن للمطورين المهتمين بالذكاء الصناعي الوكالي استكشاف NVIDIA AI Blueprint للبيانات الدوارة على NVIDIA API catalog، والغوص في دلائل الإعداد، تفاصيل التنفيذ، والدروس التعليمية. تابع الفيديو التعليمي للحصول على دليل خطوة بخطوة لبناء الحلقة الدوارة لحالة استخدام استدعاء الأدوات المذكورة في هذه المدونة. انضم إلى فريق NVIDIA في 18 يونيو لحضور ويبينار مباشر حيث سيقوم الخبراء بتفصيل كيفية تشغيل NVIDIA NIM وخدمات NeMo للحلقات الدوارة. تفاعل مع فريق NVIDIA للبلوغرام في جلسة Q&A المباشرة القادمة في 26 يونيو للاستفسار عن بناء الحلقات الدوارة بسهولة باستخدام هذا البلوغرام الجديد.
