dots.ocr: Ein Mehrsprachiges Dokumentanalysemodell
1. Einführung in das Tutorial
dots.ocr ist ein mehrsprachiges Dokumentlayout-Parsing-Modell, das im August 2025 von Xiaohongshus hi-Labor veröffentlicht wurde. Basierend auf einem visuellen Sprachmodell (VLM) mit 1,7 Milliarden Parametern integriert das Modell Layout- und Inhaltserkennung und behält dabei eine gute Lesereihenfolge bei. Trotz seiner geringen Größe erreicht das Modell eine hochmoderne Leistung und erzielt hervorragende Ergebnisse bei Benchmarks wie OmniDocBench. Seine Formelerkennungsleistung kann es mit der größerer Modelle wie Doubao-1.5 und Gemini2.5-Pro aufnehmen und bietet erhebliche Vorteile beim Parsen von Minderheitensprachen. dots.ocr bietet eine einfache und effiziente Architektur, die zum Wechseln zwischen Aufgaben lediglich eine Änderung der Eingabeaufforderung erfordert. Seine hohe Inferenzgeschwindigkeit macht es für eine Vielzahl von Dokumentparsing-Szenarien geeignet.
Dieses Tutorial verwendet Ressourcen für eine einzelne RTX 4090-Karte.
2. Projektbeispiele
Beispiel für ein Formeldokument

Beispiel für ein Tabellendokument

Beispiel für mehrsprachige Dokumentation



3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Parameterbeschreibung
- Eingabeaufforderung auswählen:
- layout_all_en: Erkennt den gesamten Text in einem Bild und behält die ursprüngliche Layoutstruktur bei.
- layout_only_en: Erkennt nur englischen Text in Bildern und ignoriert andere Sprachen.
- OCR: Erkennen Sie Text in Bildern, ohne die Struktur beizubehalten.
- Erweiterte Einstellungen:
- Fitz_Preprocess für Bilder aktivieren: Ob Fitz_Preprocess für Bilder aktiviert werden soll. Empfohlen, wenn die Bild-DPI niedrig ist.
- Min. Pixel: Die Mindestanzahl von Pixeln in einem Bild, die zum Herausfiltern zu kleiner Bilder verwendet wird.
- Max. Pixel: Die maximale Anzahl von Pixeln im Bild, die zum Herausfiltern zu großer Bilder verwendet wird.
4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓
