نيفيديا تطلق سلسلة نموذج Nemotron الجديدة لبناء وكلاء ذكاء اصطناعي متخصصين بقدرات متعددة
في مؤتمر NVIDIA GTC DC، كشفت الشركة عن مجموعة جديدة من نماذج الذكاء الاصطناعي المتخصصة ضمن سلسلة Nemotron، مصممة لتمكين تطوير وكالات ذكية (Agentic AI) متعددة الوسائط وآمنة وفعّالة. تُعد هذه النماذج حجر الزاوية في بناء أنظمة ذكاء اصطناعي قادرة على التخطيط، والاستنتاج، واسترجاع المعلومات، وضمان السلامة، عبر دمج نماذج لغوية وبصرية مخصصة. أبرز هذه النماذج هو Nemotron Nano 3، نموذج متعدد المهام (MoE) بحجم 32 مليار معامل، مع 3.6 مليار معامل نشطة فقط، مما يجعله فعالًا من حيث الحوسبة وسريعًا في المعالجة. يتفوق في المهام العلمية، البرمجة، الرياضيات، واستدعاء الأدوات، ويُقلّل من زمن الاستجابة وتكاليف الحوسبة بفضل بنية MoE. أما Nemotron Nano 2 VL، فهو نموذج متعدد الوسائط بحجم 12 مليار معامل، مُصمم لفهم المستندات والفيديوهات. يُعد من أفضل النماذج في معيار OCRBenchV2، ويُستخدم في تحليل النصوص، الجداول، الصور، والفيديوهات. يعتمد على بنية هجينة تجمع بين Mamba وTransformer، مع دعم لـ FP8 وتقنيات التوازي في السياق، مما يسمح بمعالجة مقاطع فيديو طويلة ومستندات ممتدة بكفاءة. كما يُقدّم تقنية EVS (Efficient Video Sampling) التي تقلل التكرار البصري في الفيديو، مما يُسرّع الأداء بنسبة تصل إلى 2.5 مرة دون التضحية بالدقة. أُطلِق أيضًا Nemotron Parse 1.1، نموذج صغير (1 مليار معامل) مُخصص لاستخراج المعلومات من المستندات المُصورة. يُحلّل النصوص، الجداول، والهيكلية، ويُخرِجها بتنسيق منظّم، مما يُحسّن دقة أنظمة الاسترجاع (Retrieval) وتدرب نماذج لغوية وبصرية لاحقًا. في مجال الاسترجاع المُعزّز بالذكاء الاصطناعي (RAG)، أُطلِق Nemotron RAG، مجموعة نماذج مفتوحة المصدر تُدعم تطبيقات استرجاع المعلومات من البيانات الخاصة بالشركات، مع الحفاظ على الخصوصية. تُعدّ هذه النماذج أساسية في بناء أنظمة ذكاء اصطناعي تفاعلية، مثل المساعدين الافتراضيين في الدعم الفني أو الموارد البشرية، أو أدوات تلخيص الفيديوهات. تُظهر هذه النماذج أداءً متفوّقًا في معايير مثل ViDoRe وMTEB وMMTEB. ولتعزيز السلامة، أُطلق Llama 3.1 Nemotron Safety Guard 8B V3، نموذج متعدد اللغات للكشف عن المحتوى غير الآمن. يُدرّب على مجموعة بيانات متنوعة ثقافيًا تضم أكثر من 386 ألف عينة، ويدعم تسع لغات، منها العربية والهندية واليابانية. يُحقّق دقة 84.2% في تصنيف المحتوى الضار، ويعتمد على تقنيتين جديدتين: التكيّف الثقافي باستخدام لغة محلية، وتصفية التناقضات لتحسين جودة التدريب. جميع هذه النماذج متاحة عبر منصات مثل Hugging Face، ودعمها من قبل محركات التوليد مثل vLLM وTRT-LLM، وتوفر كـ NVIDIA NIM. كما يُمكن استخدام أدوات مثل NVIDIA NeMo وNeMo Evaluator SDK لتقييم الأداء وتحسين الوكلاء الذكية عبر معايير قياسية، مع دعم لـ MCP وتكامل مع أدوات مثل LangChain وCrewAI. باستخدام هذه الأدوات، يمكن للمطورين بناء وكالات ذكية متخصصة، آمنة، وقابلة للتطوير في بيئات حقيقية، من تحليل المستندات إلى تلخيص الفيديوهات، مع ضمان جودة وموثوقية عالية.
