HyperAI

أصبحت معالجة المستندات المعقدة أكثر فعالية بفضل نموذج "NVIDIA NeMo Retriever Parse"، الذي يعتمد على تقنية نموذج اللغة والرؤية (VLM). تُعتبر المستندات مثل التقارير البحثية والعقود التجارية والبيانات المالية والكتب التقنية من المصادر الرئيسية للمعلومات، لكنها تُعتبر غير منظمة، مما يجعل استخراج المعرفة منها تحديًا كبيرًا لتقنيات التعرف البصري على النص (OCR) التقليدية. فهذه التقنيات تواجه صعوبات في التعامل مع التصميمات المعقدة، والاختلافات في التنسيق، وضمان استمرارية النص عبر الصفحات. يعتمد NVIDIA NeMo Retriever Parse على نموذج مُحول (Transformer) مُحسّن، وهو جزء من عائلة "NeMo Retriever" التي تقدم خدمات صغيرة لبناء أنظمة استيراد وبحث متعددة الوسائط ذات دقة عالية وخصوصية مُحسّنة. يُعتبر هذا النموذج قادراً على فهم المستندات بشكل متكامل، واستخراج النصوص والجداول والصيغ الرياضية مع الحفاظ على التنسيق والترتيب القرائي. من أبرز ميزاته: - استخراج النصوص والصيغ الرياضية بدقة وفقًا لترتيب القراءة. - تحديد المواقع المكانية وتصنيف عناصر المستند مثل العناوين والمواضيع والفقرات والجداول والصور. - دعم تنسيقات النص العادي والـMarkdown. - دمجه بسهولة في أنظمة البحث والمعالجة في الشركات. يُعد نموذج "NeMo Retriever Parse" مُحسّنًا لتقنيات معالجة المستندات، حيث يحسن دقة استخراج المعلومات ويزيد من قابلية البحث والتنظيم. كما يُمكّن من استخراج محتوى مُنظم يعزز دقة نماذج اللغة الكبيرة (LLM) والنموذجات البصرية واللغوية (VLM). يُستخدم في بناء النموذج نموذج "ViT-H" لتحليل الصور، مع مُترجم مُبني على "mBART" لتحسين الكفاءة والدقة. تختلف هذه المعمارية عن النماذج الأخرى، حيث تعتمد على محرك بصري قوي ومترجم خفيف، مما يُمكّن النموذج من فهم التصميمات المعقدة وتحليلها بسرعة. أحد الابتكارات التقنية الرئيسية هو نظام الترميز الموحّد (unified tokenization)، الذي يسمح للنموذج بتمثيل النص مع إحداثيات المواقع المكانية وتصنيف العناصر، مما يُنتج مخرجات مُنظمة ومُتكاملة. كما تم تدريب النموذج على بيانات متنوعة، بما في ذلك بيانات مُصنّفة يدويًا وبيانات مُصنّفة تلقائيًا، مما يُعزز قدرته على التعامل مع المستندات المتنوعة. في تقييمه، حقق NVIDIA NeMo Retriever Parse أداءً متميزًا في مهام استخراج النصوص والجداول، حيث تفوق على النماذج الأخرى في معايير مثل "F1 score" و"100 normalized edit distance" و"METEOR" و"BLEU". كما أظهر تفوقًا كبيرًا في استخراج الجداول على مجموعتي "PubTabNet" و"RD-TableBench"، مما يؤكد قدرته على استخراج المحتوى والبنية بدقة. NVIDIA NeMo Retriever Parse يُعتبر حلًا مبتكرًا لمعالجة المستندات، ويوفر دقة عالية في استخراج النصوص والجداول، ويُحسن من قابلية استخدام المعلومات في أنظمة البحث والتحليل. وهو الآن مخصص لدعم اللغة الإنجليزية، لكنه في طور التوسع لدعم اللغة الصينية والنصوص اليدوية، مما يزيد من تطبيقاته في المستقبل. تُعد هذه التقنية خطوة مهمة نحو تحسين الذكاء الاصطناعي في معالجة المستندات، وتمكين الشركات من استخراج المعلومات وتنظيمها بشكل أكثر كفاءة. يمكن تجربته من خلال NVIDIA API Catalog، كما يمكن تنزيل نموذج "VLM NIM" من NGC Catalog. يُساهم هذا النموذج في تحسين أنظمة البحث والتحليل، ويساعد المطورين والباحثين على تحسين دقة معالجة المستندات في مهامهم الحيوية.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

مجموعة أوراق بحثية | أكثر من 100 إنجاز رئيسي في مجال الذكاء الاصطناعي للعلوم: نظرة عامة سريعة على الابتكارات التكنولوجية بحلول عام 2025

مجموعة أوراق بحثية | أكثر من 100 إنجاز رئيسي في مجال الذكاء الاصطناعي للعلوم: نظرة عامة سريعة على الابتكارات التكنولوجية بحلول عام 2025

Command Palette

تحويل المستندات المعقدة إلى بيانات قابلة للاستخدام باستخدام VLM في NVIDIA NeMo Retriever Parse

الروابط ذات الصلة

Command Palette

تحويل المستندات المعقدة إلى بيانات قابلة للاستخدام باستخدام VLM في NVIDIA NeMo Retriever Parse

الروابط ذات الصلة

Command Palette

تحويل المستندات المعقدة إلى بيانات قابلة للاستخدام باستخدام VLM في NVIDIA NeMo Retriever Parse

الروابط ذات الصلة

مجموعة أوراق بحثية | أكثر من 100 إنجاز رئيسي في مجال الذكاء الاصطناعي للعلوم: نظرة عامة سريعة على الابتكارات التكنولوجية بحلول عام 2025

مجموعة أوراق بحثية | أكثر من 100 إنجاز رئيسي في مجال الذكاء الاصطناعي للعلوم: نظرة عامة سريعة على الابتكارات التكنولوجية بحلول عام 2025