dots.ocr : Un Modèle d'analyse De Documents Multilingues
1. Introduction au tutoriel
dots.ocr est un modèle d'analyse de mise en page de documents multilingues, publié par le laboratoire hi de Xiaohongshu en août 2025. Basé sur un modèle de langage visuel (MLV) de 1,7 milliard de paramètres, ce modèle intègre la détection de mise en page et la reconnaissance de contenu, garantissant ainsi un bon ordre de lecture. Malgré sa petite taille, ce modèle offre des performances de pointe, obtenant d'excellents résultats sur des benchmarks tels qu'OmniDocBench. Ses performances en reconnaissance de formules rivalisent avec celles de modèles plus importants comme Doubao-1.5 et Gemini2.5-Pro, démontrant des avantages significatifs pour l'analyse des langues minoritaires. dots.ocr offre une architecture simple et efficace, ne nécessitant qu'une modification de l'invite de saisie pour changer de tâche. Sa vitesse d'inférence rapide le rend adapté à une variété de scénarios d'analyse de documents.
Ce tutoriel utilise des ressources pour une seule carte RTX 4090.
2. Exemples de projets
Exemple de document de formule

Exemple de document de tableau

Exemple de documentation multilingue



3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Description des paramètres
- Sélectionner l'invite :
- layout_all_en : reconnaît tout le texte d'une image et préserve la structure de mise en page d'origine.
- layout_only_en : reconnaître uniquement le texte anglais dans les images et ignorer les autres langues.
- OCR : Reconnaître le texte dans les images sans préserver la structure.
- Paramètres avancés :
- Activer fitz_preprocess pour les images : activer fitz_preprocess pour les images. Recommandé si la résolution de l'image est faible.
- Pixels minimum : le nombre minimum de pixels dans une image, utilisé pour filtrer les images trop petites.
- Max Pixels : le nombre maximal de pixels dans l'image, utilisé pour filtrer les images trop grandes.
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
