Command Palette
Search for a command to run...
Online-Tutorial | 32K-Kontextanalyse Von Dutzenden Dokumentseiten Gleichzeitig: Baidu Open Source Unlimited OCR, Refactoring Komplexer Szenarien Mit Langen Dokumenten

In den letzten Jahren hat sich die OCR-Technologie schrittweise von der reinen Texterkennung in Bildern zu einer umfassenden Dokumentenanalyse entwickelt. Unternehmen und Entwickler benötigen nicht nur die Textextraktion, sondern auch Modelle, die komplexe Seitenlayouts erkennen, Tabellen und Formeln analysieren, mehrspaltige Layouts verstehen und letztendlich strukturierte Ergebnisse für nachgelagerte RAG-Systeme, Wissensdatenbanken oder Büroautomatisierung liefern können. Bei der Verarbeitung langer Dokumente wie gescannter Berichte, Papiere, Präsentationen, Verträge und mehrseitiger PDFs…Herkömmliche OCR-Workflows erfordern oft eine seitenweise Verarbeitung mit anschließender Nachbearbeitung und Zusammenfügung, was nicht nur ineffizient ist, sondern auch die Gefahr einer Fragmentierung der Kontextinformationen birgt.
OCR-Modelle der nächsten Generation, wie beispielsweise DeepSeek OCR, verbessern die Erkennungsgenauigkeit und die Fähigkeit zur Analyse komplexer Layouts deutlich, indem sie ein umfangreiches Sprachmodell als Decoder einsetzen und Sprachvorwissen vollständig nutzen. Es entsteht jedoch eine neue Herausforderung: Mit zunehmendem Ausgabeinhalt wächst der Key-Value-Cache des Modells, was zu einem immer höheren Speicherverbrauch und einer geringeren Generierungsgeschwindigkeit führt. Anders ausgedrückt:Je näher das Modell am Ende des Dokuments liegt, desto höher sind die Inferenzkosten.
Baidus kürzlich als Open Source veröffentlichte Unlimited OCR-Lösung adressiert dieses Problem der Branche. Basierend auf DeepSeek OCR führt das Modell einen neuartigen Reference Sliding Window Attention (R-SWA)-Mechanismus ein, der den herkömmlichen Aufmerksamkeitsmechanismus im Decoder ersetzt. Dadurch werden die Rechenkosten der Aufmerksamkeit reduziert, während die Größe des KV-Caches während des gesamten Dekodierungsprozesses konstant bleibt. In Kombination mit den hohen Informationskomprimierungsfähigkeiten des DeepSeek OCR-Encoders …Unlimited OCR kann die OCR und das Layout-Parsing von Dutzenden von Dokumentseiten in einem einzigen Vorwärtsdurchlauf innerhalb der standardmäßigen Kontextlänge von 32K abschließen.Dies bietet einen neuen und technisch wertvolleren Ansatz für die Verarbeitung langer Dokumente. Wichtiger noch: R-SWA ist nicht nur für die Texterkennung (OCR) anwendbar, sondern hat auch das Potenzial, auf Aufgaben der Analyse langer Sequenzen wie die automatische Spracherkennung (ASR) und die maschinelle Übersetzung erweitert zu werden.
HyperAI (hyper.ai) hat kürzlich das Tutorial „Unlimited-OCR: One-click Deployment of Long Document OCR and Layout Parsing“ veröffentlicht, das die Implementierungshürde senkt und die schnelle Validierung von Modellen ermöglicht. ⬇️
Online ausführen:https://go.hyper.ai/YfaB5
Verwandte Artikel ansehen:https://go.hyper.ai/PZsJo

Weitere Online-Tutorials:
Demolauf
1. Nachdem Sie die Hyper.ai-Homepage aufgerufen haben, wählen Sie die Seite „Tutorials“ aus oder klicken Sie auf „Weitere Tutorials anzeigen“, wählen Sie „Unlimited-OCR: One-Click Deployment of Long Document OCR and Layout Parsing“ aus und klicken Sie auf „Dieses Tutorial ausführen“.


2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.
Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

3. Wählen Sie die Images „NVIDIA RTX 5090“ und „PyTorch“ aus und klicken Sie auf „Auftragsausführung fortsetzen“.


4. Warten Sie, bis die Ressourcen zugewiesen wurden. Sobald sich der Status auf „Wird ausgeführt“ ändert, klicken Sie auf „Arbeitsbereich öffnen“, um den Jupyter-Arbeitsbereich zu betreten.

Effektanzeige
1. Nachdem die Seite weitergeleitet wurde, klicken Sie auf die README-Datei auf der linken Seite und anschließend oben auf Ausführen.


2. Nach Abschluss des Vorgangs klicken Sie auf die API-Adresse auf der rechten Seite, um die Demo-Oberfläche zu öffnen.










