HyperAI

MinerU-Tool Zur Datenextraktion Aus Einer Hand

MinerU-Tool zur Datenextraktion aus einer Hand

Modelleinführung

MinerU ist ein Tool, das PDF in maschinenlesbare Formate (wie Markdown, JSON) konvertiert, die problemlos in jedes beliebige Format extrahiert werden können. Unterstützt die genaue Erkennung von 176 Sprachen und die präzise Identifizierung von Sprachtypen. Es ist speziell dafür konzipiert, komplexe multimodale PDF-Dokumente mit Bildern, Formeln, Tabellen, Fußnoten usw. in ein klares und leicht zu analysierendes Markdown-Format zu konvertieren. Darüber hinaus unterstützt MinerU auch das schnelle Parsen und Extrahieren formaler Inhalte von Webseiten und E-Books, die Störinformationen wie Werbung enthalten, und verbessert so effektiv die Effizienz der KI-Korpusvorbereitung.

Hauptmerkmale

  • Löschen Sie Kopf- und Fußzeilen, Fußnoten, Seitenzahlen und andere Elemente, um die semantische Kohärenz zu wahren
  • Geben Sie Text in menschenlesbarer Reihenfolge für mehrere Spalten aus
  • Behalten Sie die Struktur des Originaldokuments bei, einschließlich Titel, Absätze, Listen usw.
  • Bilder, Bildtitel, Tabellen, Tabellentitel extrahieren
  • Formeln in Dokumenten automatisch erkennen und in Latex konvertieren
  • Tabellen in Dokumenten automatisch erkennen und in Latex konvertieren
  • Automatische Erkennung und Aktivierung von OCR für verstümmelte PDF-Dateien
  • Unterstützt CPU- und GPU-Umgebungen
  • Unterstützt Windows-/Linux-/Mac-Plattformen

Bereitstellen des Inferenzschritts

In diesem Tutorial wurden das Modell und die Umgebung bereitgestellt. Sie können das große Modell direkt für den Denkdialog gemäß den Anweisungen im Tutorial verwenden. Das spezifische Tutorial lautet wie folgt:

1. Modellkonfiguration

Nachdem die Ressourcen konfiguriert sind, starten Sie den Container und klicken Sie auf den Link an der API-Adresse, um die Demo-Schnittstelle aufzurufen.


2. Öffnen Sie die Schnittstelle

Nach einer Weile können Sie die Modellschnittstelle sehen und dann können wir das Modell verwenden. Benutzer können die zu extrahierende PDF-Datei hochladen (beachten Sie, dass sie nicht größer als 5 MB sein sollte), auf die Schaltfläche „Senden“ klicken und das Modell wird extrahiert. In der Gradio-Oberfläche wird außerdem eine Beispieldatei paper.pdf bereitgestellt, damit Benutzer das Modell ausprobieren können. (Die Extraktionszeit dieser Datei beträgt etwa 110 Sekunden)