نيموترون كولإمبد V2 يُحدث ثورة في استرجاع الوثائق متعددة الوسائط بفضل النموذج الرائد في فيدوري V3
أعلنت نيفيديا عن إطلاق عائلة نموذج Nemotron ColEmbed V2، وهي مجموعة من النماذج متعددة الوسائط المُصممة لتحسين دقة استرجاع المعلومات من المستندات البصرية المعقدة، مثل الصور، الجداول، المخططات، والرسومات. تأتي هذه النماذج ضمن تطور مستمر في مجال التوسعات المتعددة الوسائط (multimodal retrieval)، حيث تُعدّ المهام المتعلقة باسترجاع معلومات دقيقة من المستندات الغنية بصريًا من التحديات الرئيسية في أنظمة التوليد التلقائي للإجابات (RAG) المؤسسية. تم تطوير Nemotron ColEmbed V2 بحجمين 3B و4B و8B، وتعتمد على معمارية "تأخير التفاعل" (late-interaction)، التي تُتيح تفاعلًا دقيقًا بين كل رمز (token) في الاستعلام والرموز في المستند، بغض النظر عن طبيعته (نصي أو بصري). يتم ذلك عبر عملية MaxSim، التي تُحسب أقصى تشابه بين كل رمز استعلام وجميع رموز المستند، ثم تُجمّع هذه القيم لتحديد درجة الصلة النهائية. على عكس النماذج الأحادية المتجهة (single-vector) التي تُدمج كامل المستند في متجه واحد، تتطلب هذه الطريقة تخزين متجهات فرعية لكل رمز في المستند، ما يرفع متطلبات التخزين لكنه يُحسّن الدقة بشكل كبير. على منصة ViDoRe V3، وهي معيار جديد لاختبار استرجاع المستندات البصرية في البيئات المؤسسية، حققت نماذج Nemotron ColEmbed V2 أفضل الأداء في فئاتها: النموذج 8B حلّ في المرتبة الأولى، والنموذج 4B في المرتبة الثالثة، والنموذج 3B في المرتبة السادسة، وهو الأفضل في فئته، بحلول 3 فبراير 2026. هذه النتائج تُثبت تفوقها على النماذج السابقة في تقييمات مثل NDCG@10، خاصة في مهام استرجاع الصفحات من المستندات المعقدة. تم بناء النماذج على أساس نماذج لغة ورؤية متعددة الوسائط مُتقدمة: النموذج 3B مستند إلى Llama-3.2-3B وSigLIP-2-Giant، بينما النموذجان الأكبر يستندان إلى Qwen3-VL-8B وQwen3-VL-4B. تم تدريبها باستخدام معمارية "ثنائية المُدمج" (bi-encoder)، مع تعلم تقابل (contrastive learning) لتعزيز التشابه بين الاستعلام والمستند الصحيح، وتقليل التشابه مع المستندات السلبية. تم استخدام تدريب مزدوج للنموذج 3B، بدأ ببيانات أسئلة نصية، ثم أُكمل ببيانات نص-صورة، بينما النموذجان الأكبر تم تدريبهما فقط على بيانات نص-صورة. أبرز التحسينات مقارنة بالإصدار الأول تشمل دمج النماذج (model merging) بعد التدريب، مما يعزز الاستقرار والأداء دون إضافة زمن استجابة. كما تم تضخيم مجموعة البيانات التدريبية ببيانات اصطناعية متعددة اللغات، مما يُحسّن التوافقsemantic عبر اللغات والأنواع المعقدة من المستندات. تُعدّ هذه النماذج مثالية للمحترفين والباحثين الذين يركزون على الدقة العالية في تطبيقات استرجاع المستندات البصرية، مثل محركات البحث متعددة الوسائط، الأنظمة التفاعلية القائمة على الرسومات، وأنظمة الذكاء الاصطناعي التشاركي. أما النموذج 1B المُعلن سابقًا، فهو مُصمم للبيئات التجارية التي تُفضّل الكفاءة وانخفاض التخزين. يمكن الآن تنزيل نماذج Nemotron ColEmbed V2 من Hugging Face، أو استخدامها عبر حزمة الخدمة من NVIDIA NGC، مع إمكانية تجربة تقنيتها في مشاريعك عبر "NVIDIA Enterprise RAG Blueprint"، الذي يعتمد على نفس التقنية التي حققت الفوز في مسابقة ViDoRe V3.
