نفتي نيموترون نانو 2: نموذج تفكير هجين مامبا-ترانسפורمر دقيق وفعال

نقدّم نموذج Nemotron-Nano-9B-v2، وهو نموذج لغوي هجين يجمع بين معمارية Mamba وTransformer، مصمم لزيادة معدل الإنتاجية في المهام التي تتطلب التفكير، مع تحقيق دقة متفوقة مقارنةً بالنموذج المماثل من حيث الحجم. يُبنى نموذج Nemotron-Nano-9B-v2 على بنية Nemotron-H، حيث تم استبدال معظم طبقات الانتباه الذاتي في البنية الشائعة لـ Transformer بطبقات Mamba-2، بهدف تحسين سرعة الاستنتاج عند إنتاج سلاسل تفكير طويلة ضرورية للتأمل والتحليل. تم إنشاء Nemotron-Nano-9B-v2 من خلال تدريب أولي لنموذج يحتوي على 12 مليار معلمة (Nemotron-Nano-12B-v2-Base) على 20 تريليون رمز باستخدام وصف تدريب مبني على الدقة FP8. وبعد عملية مواءمة نموذج Nemotron-Nano-12B-v2-Base، نستخدم استراتيجية Minitron لضغط النموذج وتقليله (distillation)، بهدف تمكين الاستنتاج على ما يصل إلى 128 ألف رمز باستخدام بطاقة NVIDIA A10G واحدة (بذاكرة 22 جيجابايت، بدقة bfloat16). مقارنةً بالنماذج المماثلة من حيث الحجم (مثل Qwen3-8B)، نُظهر أن Nemotron-Nano-9B-v2 يحقق دقة متميزة أو مساوية في اختبارات التفكير، مع تحقيق معدل استنتاج يصل إلى 6 أضعاف أعلى في السياقات التي تتطلب التفكير، مثل إدخال 8 آلاف رمز وإخراج 16 ألف رمز. ونُعلن عن إطلاق نماذج Nemotron-Nano-9B-v2 وNemotron-Nano-12B-v2-Base وNemotron-Nano-9B-v2-Base، إلى جانب معظم مجموعات البيانات المستخدمة في التدريب الأولي والثانوي، على منصة Hugging Face.