Baidu veröffentlicht Unlimited-OCR für Langdokumente
Baidu hat mit Unlimited-OCR ein neues Open-Source-Modell zur optischen Zeichenerkennung veröffentlicht, das speziell für das One-Shot-Langstrecken-Parsing entwickelt wurde. Die Software verarbeitet sowohl Einzelbilder als auch mehrseitige Dokumente und PDF-Dateien in einem einzigen Durchlauf. Technisch unterstützt das System NVIDIA-GPUs und bietet zwei Modi: den Gundam-Modus für Einzelbilder und den Base-Modus, der auf Mehrseitenanalysen ausgelegt ist. Die Integration lässt sich wahlweise über die Hugging Face Transformers-Bibliothek oder den SGLang-Server durchführen, wobei Streaming-APIs, Batch-Inferenz und konfigurierbare N-gramm-Parameter unterstützt werden. Die Architektur verknüpft Erkenntnisse aus Deepseek-OCR, Deepseek-OCR-2 und PaddleOCR, um bei bis zu 32.768 Token pro Sequenz eine hohe Erkennungsgenauigkeit zu gewährleisten. Mit der Veröffentlichung stellt Baidu eine skalierbare Lösung bereit, die komplexe Dokumentenstrukturen effizient automatisiert und direkte Integrationen in Entwicklungsumgebungen sowie Unternehmens-Workflows ermöglicht.
