HyperAIHyperAI

Command Palette

Search for a command to run...

PP-OCRv6 startet auf Hugging Face für 50-sprachige OCR

PaddlePaddle hat mit PP-OCRv6 eine neue Generation seiner universellen OCR-Modellfamilie veröffentlicht, die nun über den Hugging Face Hub zugänglich ist. Das Update adressiert die Anforderungen an präzise Textlokalisierung und -erkennung in realen Szenarien und skaliert flexibel von 1,5 Millionen bis 34,5 Millionen Parametern. Die Modellreihe umfasst drei Leistungsklassen: die tiny-Variante für ressourcenbeschränkte Edge-Geräte, die small-Version für mobile und Desktop-Anwendungen sowie die medium-Variante für serverseitige Pipelines und anspruchsvolle industrielle Anwendungen. Besonders hervorzuheben ist die integrierte Unterstützung von fünfzig Sprachen in den mittelgroßen und kleinen Ausprägungen, darunter vereinfachtes und traditionelles Chinesisch, Englisch, Japanisch sowie vierzigsechs lateinische Schriften. Architektonisch basiert PP-OCRv6 auf dem PPLCNetV4-Backbone, der eine einheitliche Struktur über alle Modellgrößen hinweg gewährleistet. Für die Textlokalisierung kommt das leichte RepLKFPN zum Einsatz, das speziell für mehrstufige Erkennung bei kleinen, gedrehten oder unscharfen Textfragmenten konzipiert wurde. Die Spracherkennung optimiert das EncoderWithLightSVTR-Modell durch die Kombination lokaler Kontextmodellierung mit globaler Aufmerksamkeit, was die Genauigkeit bei mehrsprachigen Dokumenten, Bildschirmtexten und industriellen Beschriftungen signifikant steigert. Auf den hauseigenen Benchmark-Tests von PaddleOCR erreicht die Medium-Variante einen Detection-Hmean von 86,2 Prozent und eine Erkennungsgenauigkeit von 83,2 Prozent. Dies entspricht einer Steigerung von vier Komma sechs bzw. fünf Komma eins Prozentpunkten gegenüber dem Vorgänger PP-OCRv5_server. Die Integration in bestehende Arbeitsabläufe wird durch die aktuelle PaddleOCR-Version 3.7 stark vereinfacht. Entwickler können wahlweise auf Paddle Inference, ONNX Runtime oder das Hugging Face Transformers-Framework zurückgreifen. Über eine einheitliche Schnittstelle lässt sich das jeweilige Backend direkt in der Konfiguration aktivieren, wodurch die Modelle nahtlos in Document-Parsing-Systeme, RAG-Pipelines, Suchlösungen oder KI-Agenten integrierbar sind. Bereits konvertierte Varianten im ONNX- und Safetensors-Format stehen auf dem Hugging Face Hub bereit. Über ein interaktives Online-Demo können Nutzer die Leistung vor der Integration direkt evaluieren. Mit PP-OCRv6 stellt PaddlePaddle ein schlankes, hochpräzises und multilinguales OCR-System bereit, das speziell auf die Anforderungen produktionstauglicher Textextraktion in heterogenen Infrastrukturumgebungen ausgelegt ist.

Verwandte Links