HyperAIHyperAI

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente

1. Introduction au tutoriel

Étoiles GitHub

OCRFlux-3B est une boîte à outils basée sur un modèle de langage multimodal étendu, publiée par l'équipe ChatDOC le 17 juin 2025. Elle permet de convertir des PDF et des images en texte Markdown clair, lisible et brut. Cet outil offre non seulement des fonctions de conversion de texte au niveau de la page, mais prend également en charge la fusion de tableaux et de paragraphes entre pages, offrant ainsi une prise en charge optimale du traitement de structures de documents complexes.

Ce tutoriel utilise une seule carte RTX 4090 comme ressource. Le projet propose trois exemples de démonstration : document PDF, document image et fichiers multiples.

2. Exemples de projets

Document PDF

Document image

Plusieurs fichiers

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Document PDF

Description des paramètres

  • Paramètres avancés :
    • Dimension de l'image cible : taille de l'image cible, utilisée pour contrôler la taille de l'image générée.
    • Nombre maximal de tentatives de page : nombre maximal de tentatives, utilisé pour gérer les erreurs d'analyse des pages PDF.
    • Ignorer la fusion inter-pages : Ignorer la fusion inter-pages, utilisé pour traiter le contenu sur plusieurs pages d'un document.

Document image

Plusieurs fichiers

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

OCRFlux-3B : Boîte À Outils De Reconnaissance De Texte Intelligente | Tutoriels | HyperAI