HyperAIHyperAI

Command Palette

Search for a command to run...

PaddleOCR lance PP-OCRv6 : OCR multilingue sur 50 langues

PaddleOCR a publié la version 6 de son modèle de reconnaissance optique de caractères, PP-OCRv6, sur la plateforme Hugging Face. Cette nouvelle génération se distingue par sa modularité et ses performances optimisées pour la détection et la transcription de texte dans des contextes variés, incluant documents, interfaces numériques et étiquettes industrielles. La gamme propose trois tailles de modèle, de 1,5 million à 34,5 millions de paramètres, permettant une adaptation précise aux contraintes matérielles, des terminaux mobiles aux serveurs haute capacité. Les versions petite et moyenne gèrent conjointement cinquante langues, dont le chinois simplifié et traditionnel, l'anglais, le japonais et quarante-six langues à alphabet latin. Cette unification réduit la maintenance de multiples modèles dédiés au multilinguisme. Sur les benchmarks officiels, le modèle moyen atteint 86,2 % de précision en détection et 83,2 % en reconnaissance, soit une progression de 4,6 et 5,1 points par rapport à la précédente version serveur. Architecturalement, PP-OCRv6 repose sur le moteur unifié PPLCNetV4 pour assurer une cohérence entre les différentes tailles. Le module de détection utilise RepLKFPN, un réseau pyramidal à grands noyaux léger, conçu pour traiter des textes denses, inclinés ou faiblement résolus sur des arrière-plans complexes. La reconnaissance intègre EncoderWithLightSVTR, qui combine analyse contextuelle locale et attention globale pour améliorer la lecture des caractères spéciaux, des écrans et des zones visuellement bruitées. Le déploiement est simplifié grâce à une interface unique offrant trois backends d'inférence. Les utilisateurs peuvent opter pour le runtime natif Paddle, le format ONNX pour une compatibilité large, ou le backend Transformers pour une intégration directe avec les outils Hugging Face. Les résultats s'exportent en format structuré JSON ou en images annotées, facilitant leur injection dans des pipelines de recherche documentaire, d'analyse ou d'agents autonomes. Accessible via un espace de démonstration et une bibliothèque complète sur Hugging Face, PP-OCRv6 répond à une demande industrielle croissante : extraire des données textuelles fiables avec des ressources limitées. Cette mise à jour confirme la pertinence des solutions OCR spécialisées face à la généralisation des modèles vision-langage, en proposant une alternative efficace, multilingue et compatible avec les architectures existantes.

Liens associés