Command Palette
Search for a command to run...
مَينِرU2.5: نموذج بصري-لغوي منفصل لتحليل الوثائق عالية الدقة بكفاءة

الملخص
نُقدّم نموذج MinerU2.5، وهو نموذج لغوي بصرى لتحليل المستندات بحجم 1.2 مليار معلمة، يحقق دقة في التعرف على أعلى المستويات مع الحفاظ على كفاءة حسابية استثنائية. تعتمد طريقة عملنا على استراتيجية تحليل متعددة المراحل، من العام إلى الخاص، على مرحلتين، تفصل بين تحليل التخطيط العام للمستند وتحليل المحتوى المحلي. في المرحلة الأولى، يقوم النموذج بتحليل تخطيطي فعّال على صور مُقلّصة الحجم لتحديد العناصر البنائية، مما يتجنب الأعباء الحسابية الناتجة عن معالجة المدخلات ذات الدقة العالية. وفي المرحلة الثانية، وتحت إشراف التخطيط العام، يُجري تحليلًا دقيقًا للمحتوى على قطع ذات دقة أصلية مستخرجة من الصورة الأصلية، مع الحفاظ على التفاصيل الدقيقة في النصوص الكثيفة والصيغ المعقدة والجداول. ولدعم هذه الاستراتيجية، طوّرنا محرك بيانات شاملًا يُولّد مجموعات بيانات متنوعة وواسعة النطاق لتدريب النموذج مسبقًا وتحسينه. في النهاية، يُظهر MinerU2.5 قدرات قوية في تحليل المستندات، ويحقق أداءً متميزًا على عدة معايير، ويتفوّق على النماذج العامة والمتخصصة في مهام التعرف المختلفة، مع الحفاظ على عبء حسابي أقل بشكل ملحوظ.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.