OCRFlux-3B: مجموعة أدوات التعرف على النصوص الذكية
1. مقدمة البرنامج التعليمي

OCRFlux-3B هي مجموعة أدوات مبنية على نموذج لغوي متعدد الوسائط، أصدره فريق ChatDOC في 17 يونيو 2025، ويُستخدم لتحويل ملفات PDF والصور إلى نص Markdown واضح وسهل القراءة. لا توفر هذه الأداة وظائف تحويل النصوص على مستوى الصفحة فحسب، بل تدعم أيضًا دمج الجداول والفقرات عبر الصفحات، مما يوفر دعمًا قويًا لمعالجة هياكل المستندات المعقدة.
يستخدم هذا البرنامج التعليمي بطاقة RTX 4090 واحدة كمورد. يوفر المشروع ثلاثة أمثلة توضيحية: مستند PDF، ومستند صورة، وملفات متعددة.
2. أمثلة المشاريع
وثيقة PDF

وثيقة الصورة

ملفات متعددة

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

وثيقة PDF

وصف المعلمة
- الإعدادات المتقدمة:
- أبعاد الصورة المستهدفة: حجم الصورة المستهدفة، المستخدم للتحكم في حجم الصورة المولدة.
- الحد الأقصى لإعادة المحاولة: الحد الأقصى لعدد المحاولات، المستخدم للتعامل مع أخطاء تحليل صفحات PDF.
- تخطي الدمج عبر الصفحات: تخطي الدمج عبر الصفحات، ويُستخدم لمعالجة المحتوى عبر الصفحات في مستند.
وثيقة الصورة

ملفات متعددة

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
