HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

POINTS-Reader: Adaptierung von visuell-sprachlichen Modellen für die Dokumentenkonvertierung ohne Distillation

Yuan Liu Zhongyin Zhao Le Tian Haicheng Wang Xubing Ye et al

POINTS-Reader: Adaptierung von visuell-sprachlichen Modellen für die Dokumentenkonvertierung ohne Distillation

Abstract

Hochwertige, annotierte Daten sind entscheidend für die Schulung präziser Dokumentenkonvertierungsmodelle, insbesondere in Bereichen mit komplexen Formatierungen wie Tabellen, Formeln und mehrspaltigen Texten. Die manuelle Annotation ist jedoch kostspielig und zeitaufwendig, während automatische Annotationen mithilfe bestehender Modelle häufig an Genauigkeit bei solchen anspruchsvollen Szenarien fehlen. Daher kann die Schulung von Studentenmodellen durch das Auslernen von Lehrermodellen deren Leistung in realen Anwendungen erheblich einschränken. In diesem Paper stellen wir einen vollständig automatisierten, auslernungsfreien Rahmen mit zwei Phasen vor, der die Erstellung hochwertiger Datensätze und Modelle für die Dokumentenauswertung ermöglicht, die unterschiedliche Dokumentenformate und Layouts bewältigen können. In der ersten Phase führen wir eine Methode zur Erzeugung großskaliger, vielfältiger synthetischer Daten ein, die es einem Modell ermöglicht, zentrale Elemente in einheitlicher Form mit hoher Ausgangsleistung zu extrahieren. In der zweiten Phase präsentieren wir einen selbstverbessernden Ansatz, der das zuvor auf synthetischen Daten trainierte Modell weiter an reale Dokumente anpasst. Konkret nutzen wir zunächst das nachtrainierte Modell zur Annotation realer Dokumente, wenden anschließend eine Reihe von Filterstrategien zur Überprüfung der Annotationsgenauigkeit an und retrainieren schließlich das Modell auf dem verifizierten Datensatz. Durch wiederholte Durchführung dieses Prozesses verbessern wir schrittweise sowohl die Konvertierungsfähigkeit des Modells als auch die Qualität der generierten Daten. Wir trainieren ein öffentlich verfügbares POINTS-1.5-Modell zu POINTS-Reader, das viele bestehende öffentliche und proprietäre Modelle vergleichbarer oder größerer Größe übertrifft. Unser Modell ist unter folgendem URL verfügbar: https://...

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
POINTS-Reader: Adaptierung von visuell-sprachlichen Modellen für die Dokumentenkonvertierung ohne Distillation | Forschungsarbeiten | HyperAI