HyperAIHyperAI

Command Palette

Search for a command to run...

DocLayout-YOLO: Verbesserung der Dokumentlayoutanalyse durch vielfältige synthetische Daten und globale bis lokale adaptive Wahrnehmung

Zhiyuan Zhao Hengrui Kang Bin Wang Conghui He

Zusammenfassung

Die Dokumentenlayoutanalyse ist für Systeme zur Verarbeitung von realweltlichen Dokumenten entscheidend, stellt jedoch eine herausfordernde Balance zwischen Geschwindigkeit und Genauigkeit dar: Multimodale Methoden, die sowohl Text- als auch visuelle Merkmale nutzen, erreichen höhere Genauigkeiten, leiden aber unter erheblichen Verzögerungen. Unimodale Methoden hingegen, die sich ausschließlich auf visuelle Merkmale stützen, bieten zwar schnellere Verarbeitungsgeschwindigkeiten, aber zu Lasten der Genauigkeit. Um dieses Dilemma zu lösen, stellen wir DocLayout-YOLO vor, einen neuen Ansatz, der durch dokumentspezifische Optimierungen im Vortraining und in der Modellgestaltung sowohl die Genauigkeit erhöht als auch die Geschwindigkeitsvorteile beibehält. Für ein robustes Vortraining von Dokumenten führen wir den Mesh-candidate BestFit-Algorithmus ein, der die Dokumentsynthese als zweidimensionales Bin-Packing-Problem formuliert und das umfangreiche und vielfältige Datenset DocSynth-300K erstellt. Das Vortraining auf dem resultierenden DocSynth-300K-Datenset verbessert die Feinjustierung (Fine-Tuning) signifikant bei verschiedenen Dokumententypen. Hinsichtlich der Modelloptimierung schlagen wir ein Global-to-Local Controllable Receptive Modul vor, das in der Lage ist, Skalenvariationen von Dokumentenelementen besser zu verarbeiten. Darüber hinaus führen wir zur Überprüfung der Leistung bei unterschiedlichen Dokumententypen eine komplexe und anspruchsvolle Benchmark namens DocStructBench ein. Ausführliche Experimente an Downstream-Datensets zeigen, dass DocLayout-YOLO sowohl in Bezug auf Geschwindigkeit als auch auf Genauigkeit überzeugt. Der Quellcode, Daten und Modelle sind unter https://github.com/opendatalab/DocLayout-YOLO verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp