HyperAI

GOT-OCR-2.0 أول نموذج OCR شامل في العالم

مقدمة المشروع

GOT-OCR-2.0  إنه نموذج موحد من البداية إلى النهاية يعتمد على نظرية التعرف الضوئي على الحروف العامة، مع التركيز على تحسين دقة وكفاءة التعرف الضوئي على الحروف (OCR). تم إطلاق المشروع بشكل مشترك من قبل فرق البحث التابعة لشركة StepFun وMegvii Technology وجامعة الأكاديمية الصينية للعلوم وجامعة تسينغهوا. "نتائج الورقة ذات الصلة هي"النظرية العامة للتعرف الضوئي على الحروف: نحو التعرف الضوئي على الحروف 2.0 عبر نموذج موحد من البداية إلى النهاية"، وهو مناسب لمختلف سيناريوهات التطبيق، مثل التعرف على نصوص المشاهد والمستندات. يعتمد على بنية متكاملة تُمكّنه من التعامل بكفاءة مع تنوع النصوص وتعقيدها. لا يدعم GOT-OCR 2.0 التعرف على نصوص المشاهد فحسب، بل يُمكّنه أيضًا من معالجة مستندات متعددة الصفحات، مما يُضفي مرونة أكبر على مجال التعرف الضوئي على الحروف.

GOT-OCR-2.0  تشمل الميزات ما يلي:

  • تنوع قوي: استنادًا إلى نظرية التعرف الضوئي على الحروف العامة، يمكنه معالجة نصوص المشهد وهياكل المستندات المعقدة مثل الجداول والصيغ.
  • النموذج الشامل: يعمل التصميم الشامل الموحد على تبسيط عملية التعرف الضوئي على الحروف (OCR) بأكملها، من خلال دمج إدخال الصورة مع إخراج النص.
  • أداء فعال: تعمل تقنية Flash-Attention المتكاملة على تحسين سرعة التعرف والأداء.
  • دعم منصات متعددة: يدعم تسريع CUDA ومتكامل مع منصة GOT-OCR2.0 لتحميل النماذج المدربة مسبقًا.
  • يستخدم على نطاق واسع: مناسب لمجموعة واسعة من سيناريوهات التطبيق مثل المستندات متعددة الصفحات ونصوص المشهد.

أمثلة التأثير


خطوات التشغيل

1. انقر فوق "استنساخ" في الزاوية اليمنى العليا للمشروع، ثم انقر فوق "التالي" لإكمال: المعلومات الأساسية > تحديد قوة الحوسبة > المراجعة. وأخيرًا، انقر فوق "متابعة" لفتح هذا المشروع في الحاوية الشخصية.

2. بعد اكتمال تخصيص الموارد، ستقوم الخلفية تلقائيًا بتهيئة النموذج ()، وبعد ذلك يمكنك استخدام عنوان API الذي توفره المنصة مباشرةً للوصول إلى صفحة العملية (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)

3. قم بتحميل الصورة المستهدفة