HyperAIHyperAI

Command Palette

Search for a command to run...

صغير لكنه قوي: تحسين الدقة في البحث متعدد الوسائط واسترجاع المستندات البصرية باستخدام نماذج Llama Nemotron RAG

في تطبيقات الواقع، لا تقتصر البيانات على النصوص فقط، بل تمتد إلى ملفات PDF تحتوي على رسوم بيانية، عقود ممسوحة ضوئيًا، جداول، لقطات شاشة، وعروض تقديمية. هذا يتطلب أنظمة بحث متعددة الوسائط (Multimodal RAG) قادرة على استرجاع وتحليل النص والصورة والهيكل معًا، لضمان إجابات دقيقة وقابلة للتنفيذ. تقدم نيفيديا نموذجين صغيرين من عائلة Llama Nemotron مصممين خصيصًا لهذا الغرض: llama-nemotron-embed-vl-1b-v2 كنموذج تضمين (embedding) وllama-nemotron-rerank-vl-1b-v2 كنموذج إعادة ترتيب (reranker)، كلاهما بحجم 1.7 مليار معلمة، ويُعدان مثاليين للتطبيقات المؤسسية. النموذج الأول، llama-nemotron-embed-vl-1b-v2، هو نموذج تضمين كثيف (dense) يحول المحتوى النصي والصوري إلى تمثيل متجه واحد (2048 بعدًا)، مما يضمن التوافق مع جميع قواعد البيانات المتجهة القياسية ويتيح عمليات بحث بزمن استجابة ميلي ثانية. يُستخدم في مرحلة الاسترجاع الأولي، حيث يُحدد الصفحات الأكثر احتمالاً أن تحتوي على إجابة. النموذج الثاني، llama-nemotron-rerank-vl-1b-v2، هو نموذج متقاطع (cross-encoder) يعيد ترتيب النتائج المُسترجعة لتحسين دقة التوصيل، دون الحاجة لتغيير البنية التحتية للتخزين أو الفهرسة. أُجريت تقييمات على خمسة مجموعات بيانات واقعية للبحث في المستندات البصرية، بما في ذلك ViDoRe V1 إلى V3، وDigitalCorpora-10k، وEarnings V2، بالإضافة إلى مجموعتين داخليتين. أظهر النموذج المدمج (embed-vl) أداءً أفضل من النموذج السابق llama-3.2-nemoretriever-1b-vlm-embed-v1، خصوصًا في الوسائط الصورية والنصية المدمجة، مع تحسن بنسبة 2.2% في دقة الاسترجاع (Recall@5) عند استخدام الصورة والنص معًا. عند دمج النموذج مع نموذج إعادة الترتيب، تزداد الدقة بنسبة 7.2% في الوسيط الصوري، و6.9% في النص، و6% في الصورة+النص. مقارنة مع نماذج متعددة الوسائط عامة، مثل jina-reranker-m0 وMonoQwen2-VL-v0.1، أظهر llama-nemotron-rerank-vl-1b-v2 أداءً أفضل في المهام النصية والصورية المدمجة، مع ترخيص تجاري مرن، في حين أن jina-reranker-m0 مُقيّد بترخيص غير تجاري (CC-BY-NC). من حيث التصميم المعماري، يعتمد كلا النموذجين على معمارية مُعدّل من عائلة NVIDIA Eagle، باستخدام Llama 3.2 1B كنظام لغوي وSigLip2 400M كمُشغّل بصري. يُدرّس النموذج المدمج باستخدام تعلم تناصي (contrastive learning) لتعزيز التشابه بين الاستفسارات والمستندات ذات الصلة. أما نموذج إعادة الترتيب، فيُدرّس باستخدام دالة خسارة CrossEntropy على بيانات عامة واصطناعية. تُستخدم هذه النماذج بالفعل في شركات كبرى: في كادنس، تُستخدم لاسترجاع أجزاء من الوثائق الفنية عند طلب تغييرات في تصميم الدوائر، مما يُسرّع عملية التصميم. في آي بي إم، تُستخدم لتحليل وثائق البنية التحتية المعقدة، مع التركيز على المصطلحات والاختصارات في سياقها الصحيح. في سيرفيس ناو، تُستخدم في وظيفة "دردشة مع PDF" لتحسين تسلسل المحادثة وزيادة دقة الاستجابة عبر الحفاظ على السياق. يمكن للمطورين دمج هذه النماذج مباشرة في بنيتهم الحالية، أو دمجها مع نماذج مفتوحة أخرى على Hugging Face، لبناء أنظمة ذكاء اصطناعي قادرة على فهم المستندات البصرية بشكل كامل، وليس فقط نصها المستخرج.

الروابط ذات الصلة

صغير لكنه قوي: تحسين الدقة في البحث متعدد الوسائط واسترجاع المستندات البصرية باستخدام نماذج Llama Nemotron RAG | القصص الشائعة | HyperAI