إطلاق NVIDIA لنموذج Nemotron 3 Nano Omni
أطلقت شركة إنفيديا نموذج Nemotron 3 Nano Omni، وهو أول نموذج موحد من نوعه قادر على رؤية والسمع والاستدلال في آن واحد، بهدف تجاوز قيود الأنظمة التقليدية التي تعتمد على دمج نماذج متعددة منفصلة. يعمل هذا النموذج الجديد الذي يحتوي على 30 مليار معلمة، بنسخة فعالة نشطة تبلغ 3 مليارات معلمة فقط أثناء الاستدلال، مما يسمح له بمعالجة النصوص والصور والصوت والفيديو عبر استدعاء وحدة معالجة واحدة، وليس سلسلة من الخطوات المتعاقبة التي تستهلك وقتاً وتُفقد السياق. يتميز هذا الإصدار بقدرته على تشغيل تسعة أضعاف عدد المستخدمين المتزامنين على نفس وحدة المعالجة الرسومية مقارنة بالبدائل الحالية، مما يقلل التكلفة ويحسن الكفاءة بشكل ملحوظ. يوجه النموذج ليعمل كطبقة إدراك للموارد الذكية (Agents)، حيث يتولى المهام المتعلقة بفهم الوسائط المتعددة بدقة عالية، قبل إرسال الملاحظات المهيكلة إلى نماذج أكبر وأقوى لإجراء الاستنتاجات المعقدة. يتميز النموذج بدعمه لاستدعاء الأدوات عبر الوسائط المتعددة، ويدعم وضعاً مبدلاً للاستدلال يتيح للمستخدم الموازنة بين سرعة الاستجابة وعمق التحليل، بالإضافة إلى واجهة برمجية متوافقة تماماً مع واجهة OpenAI لتسهيل تكامله في الأنظمة الحالية. تشير التجارب العملية إلى أن النموذج يتفوق في مهام مثل التعرف الضوئي على الحروف (OCR)، وفهم الواجهات الرسومية، وتحليل المحادثات المالية التي تجمع بين الصوت والرسوم البيانية. ومع ذلك، فإنه يواجه بعض القيود التقنية الهامة التي يجب مراعاتها. فبينما يسمح النموذج بتفعيل خاصية الاستدلال التفكيري عند معالجة النصوص والصور، فإن هذه الخاصية غير مفعلة عند التعامل مع الملفات الصوتية أو مقاطع الفيديو، حيث يجب تحديد درجة حرارة الاستجابة على الصفر وإيقاف خاصية التفكير لضمان دقة النقل والاستماع. هذا يعني أن التحليل العميق للمحتوى الصوتي أو المرئي يتطلب نهجاً ثنائي الخطوة: استخراج المعلومات أولاً باستخدام هذا النموذج، ثم إرسالها لنموذج آخر لإجراء التحليل المنطقي العميق. تُعد إطلاق هذه النسخة جزءاً من استراتيجية إنفيديا لبناء مجمع مفتوح من النماذج يهدف إلى توفير شفافية ودقة يمكن الرجوع إليها، وهو ما يخدم الصناعات المنظمة التي تتطلب تدقيقاً في كيفية اتخاذ القرارات. يُظهر النموذج الجديد إمكانية حقيقية لتبسيط بنى الأنظمة الذكية وتقليل التأخير الناتج عن انتقال البيانات بين نماذج متعددة، مما يجعله خياراً جدياً لأي مطور يهدف لبناء تطبيقات تفهم العالم من حولها ولا تقتصر على معالجة النص فقط.
