Online-Tutorial | Läuft Es Auf Grafikkarten Der Consumer-Klasse? Das Leichte Modell OCRFlux-3B Ermöglicht Erstmals Intelligente Komplexe Texterkennung

Beim Konvertieren von PDFs müssen Sie sich keine Sorgen mehr machen, dass Formeln, Tabellen und seitenübergreifender Text das Layout stören!
Unterstützt Batch-Dokumentenanalyse, strukturierte Informationsextraktion und ist mit der seitenübergreifenden Inhaltszusammenführung kompatibel. OCRFlux-3B, ein Toolkit basierend auf einem multimodalen Großsprachenmodell, das vom ChatDOC-Team veröffentlicht wurde, kann PDFs und Bilder in ein sauberes, lesbares Markdown-Format im Klartext konvertieren.
OCRFlux-3B bietet Textkonvertierungsfunktionen auf Seitenebene, mit denen Text in PDF und Bildern präzise in das Markdown-Format konvertiert werden kann.Dieses Tool kann nicht nur komplexe Tabellen wie wiederholte Überschriften, zeilen- oder spaltenübergreifende Tabellen, horizontale Seitenumbrüche und verschachtelte Strukturen verarbeiten, sondern erkennt auch komplexe Formeln in Dokumenten und unterstützt zudem das Zusammenführen seitenübergreifender Tabellen und Absätze.Die natürliche Lesereihenfolge des Textes bleibt auch bei komplexen mehrspaltigen Layouts, Grafiken und Einfügungen erhalten. Nach der Konvertierung von PDF-Dateien in editierbaren und durchsuchbaren Markdown-Text können Forscher schnell Tabellen und Formeln aus PDF-Dokumenten extrahieren.Derzeit ist OCRFlux-3B das erste Modell im Open-Source-OCR-Projekt, das diese Fähigkeit erreicht.
OCRFlux-3B ist ein leichtgewichtiges Modell, das auf Basis des multimodalen visuellen Sprachmodells Qwen2.5-VL-3B-Instruct optimiert wurde, sodass es auch auf Grafikkarten für Endverbraucher (wie GTX 3090) ausgeführt werden kann.
derzeit,„OCRFlux-3B: Intelligentes Texterkennungs-Toolkit“Der Tutorial-Bereich wurde auf der offiziellen HyperAI-Website (hyper.ai) veröffentlicht. Mit nur einem Klick können Sie online erleben, wie Sie PDF-Dokumente, Bilddokumente und mehrere Dateien in durchsuchbaren Markdown-Text konvertieren. Kommen Sie vorbei und erleben Sie es!
Link zum Tutorial:
Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):
https://openbayes.com/console/signup?r=Ada0322_NR0n
Demolauf
1. Nachdem Sie die Homepage von hyper.ai aufgerufen haben, wählen Sie die Seite „Tutorials“, wählen Sie „OCRFlux-3B: Intelligent Text Recognition Toolkit“ und klicken Sie auf „Dieses Tutorial online ausführen“.


2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

3. Wähle „NVIDIA GeForce RTX 4090“. Die OpenBayes-Plattform bietet vier Abrechnungsmethoden. Du kannst je nach Bedarf zwischen „Pay-as-you-go“ oder „täglich/wöchentlich/monatlich“ wählen. Klicke nach Auswahl des Bildes „PyTorch“ auf „Weiter“. Neue Nutzer können sich über den unten stehenden Einladungslink registrieren und erhalten 4 Stunden RTX 4090 + 5 Stunden CPU-freie Zeit!
Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. Warten Sie, bis die Ressourcen zugewiesen wurden. Der erste Klonvorgang dauert etwa 2 Minuten. Wenn sich der Status in „Läuft“ ändert, klicken Sie auf den Sprungpfeil neben „API-Adresse“, um zur Demoseite zu springen. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresszugriffsfunktion eine Echtnamenauthentifizierung durchführen müssen.

Effektdemonstration
Klicken Sie auf die API-Adresse, um die Demoseite aufzurufen und das Modell kennenzulernen. Laden Sie anschließend ein PDF-Dokument / Bilddokument / mehrere Dateien hoch und klicken Sie auf „Verarbeiten“, um den entsprechenden Markdown-Text zu generieren. Der Effekt ist wie folgt:

OCRFlux-3B kann auch die im Dokument eingestreuten Tabellen und Formeln problemlos identifizieren:




Dies ist das empfohlene Tutorial für dieses Problem. Jeder ist herzlich eingeladen, es selbst auszuprobieren.
Link zum Tutorial: