Command Palette
Search for a command to run...
MinerU-Tool Zur Datenextraktion Aus Einer Hand
Modelleinführung

MinerU ist ein Tool, das PDF in maschinenlesbare Formate (wie Markdown, JSON) konvertiert, die problemlos in jedes beliebige Format extrahiert werden können. Unterstützt die genaue Erkennung von 176 Sprachen und die präzise Identifizierung von Sprachtypen. Es ist speziell dafür konzipiert, komplexe multimodale PDF-Dokumente mit Bildern, Formeln, Tabellen, Fußnoten usw. in ein klares und leicht zu analysierendes Markdown-Format zu konvertieren. Darüber hinaus unterstützt MinerU auch das schnelle Parsen und Extrahieren formaler Inhalte von Webseiten und E-Books, die Störinformationen wie Werbung enthalten, und verbessert so effektiv die Effizienz der KI-Korpusvorbereitung.
Hauptmerkmale
- Löschen Sie Kopf- und Fußzeilen, Fußnoten, Seitenzahlen und andere Elemente, um die semantische Kohärenz zu wahren
- Geben Sie Text in menschenlesbarer Reihenfolge für mehrere Spalten aus
- Behalten Sie die Struktur des Originaldokuments bei, einschließlich Titel, Absätze, Listen usw.
- Bilder, Bildtitel, Tabellen, Tabellentitel extrahieren
- Formeln in Dokumenten automatisch erkennen und in Latex konvertieren
- Tabellen in Dokumenten automatisch erkennen und in Latex konvertieren
- Automatische Erkennung und Aktivierung von OCR für verstümmelte PDF-Dateien
- Unterstützt CPU- und GPU-Umgebungen
- Unterstützt Windows-/Linux-/Mac-Plattformen
Bereitstellen des Inferenzschritts
In diesem Tutorial wurden das Modell und die Umgebung bereitgestellt. Sie können das große Modell direkt für den Denkdialog gemäß den Anweisungen im Tutorial verwenden. Das spezifische Tutorial lautet wie folgt:
1. Modellkonfiguration
Nachdem die Ressourcen konfiguriert sind, starten Sie den Container und klicken Sie auf den Link an der API-Adresse, um die Demo-Schnittstelle aufzurufen.

2. Öffnen Sie die Schnittstelle
Nach einer Weile können Sie die Modellschnittstelle sehen und dann können wir das Modell verwenden. Benutzer können die zu extrahierende PDF-Datei hochladen (beachten Sie, dass sie nicht größer als 5 MB sein sollte), auf die Schaltfläche „Senden“ klicken und das Modell wird extrahiert. In der Gradio-Oberfläche wird außerdem eine Beispieldatei paper.pdf bereitgestellt, damit Benutzer das Modell ausprobieren können. (Die Extraktionszeit dieser Datei beträgt etwa 110 Sekunden)

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.