
الملخص
نُقدِّم نمُوذج Nemotron Nano V2 VL، أحدث نماذج سلسلة Nemotron للرؤية واللغة، المصمَّم لتميّز قوي في فهم الوثائق الواقعية، وفهم الفيديوهات الطويلة، والمهام الاستدلالية. يُظهر نمُوذج Nemotron Nano V2 VL تحسينات كبيرة مقارنةً بنمُوذجنا السابق Llama-3.1-Nemotron-Nano-VL-8B، في جميع مجالات الرؤية والنص، وذلك بفضل تطويرات جوهرية في بنية النموذج، وملفات البيانات، ووصفات التدريب. يُبنى نمُوذج Nemotron Nano V2 VL على نمُوذج Nemotron Nano V2، وهو نموذج لغوي ذكي هجين يدمج بين Mamba وTransformer، مع تطبيق تقنيات مبتكرة لتقليل عدد الرموز (tokens)، ما يُمكّن من تحقيق كفاءة أعلى في سرعة الاستدلال (inference throughput) في سيناريوهات الوثائق والفيديوهات الطويلة. ونُعلن عن إتاحة نقاط التحقق (checkpoints) للنموذج بتنسيقات BF16 وFP8 وFP4، ونُشارك جزءًا كبيرًا من مجموعات البيانات ووصفات التدريب وشفرة التدريب.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.