DocLayout-YOLO: Verbesserung der Dokumentlayoutanalyse durch vielfältige synthetische Daten und globale bis lokale adaptive Wahrnehmung

Die Dokumentenlayoutanalyse ist für Systeme zur Verarbeitung von realweltlichen Dokumenten entscheidend, stellt jedoch eine herausfordernde Balance zwischen Geschwindigkeit und Genauigkeit dar: Multimodale Methoden, die sowohl Text- als auch visuelle Merkmale nutzen, erreichen höhere Genauigkeiten, leiden aber unter erheblichen Verzögerungen. Unimodale Methoden hingegen, die sich ausschließlich auf visuelle Merkmale stützen, bieten zwar schnellere Verarbeitungsgeschwindigkeiten, aber zu Lasten der Genauigkeit. Um dieses Dilemma zu lösen, stellen wir DocLayout-YOLO vor, einen neuen Ansatz, der durch dokumentspezifische Optimierungen im Vortraining und in der Modellgestaltung sowohl die Genauigkeit erhöht als auch die Geschwindigkeitsvorteile beibehält. Für ein robustes Vortraining von Dokumenten führen wir den Mesh-candidate BestFit-Algorithmus ein, der die Dokumentsynthese als zweidimensionales Bin-Packing-Problem formuliert und das umfangreiche und vielfältige Datenset DocSynth-300K erstellt. Das Vortraining auf dem resultierenden DocSynth-300K-Datenset verbessert die Feinjustierung (Fine-Tuning) signifikant bei verschiedenen Dokumententypen. Hinsichtlich der Modelloptimierung schlagen wir ein Global-to-Local Controllable Receptive Modul vor, das in der Lage ist, Skalenvariationen von Dokumentenelementen besser zu verarbeiten. Darüber hinaus führen wir zur Überprüfung der Leistung bei unterschiedlichen Dokumententypen eine komplexe und anspruchsvolle Benchmark namens DocStructBench ein. Ausführliche Experimente an Downstream-Datensets zeigen, dass DocLayout-YOLO sowohl in Bezug auf Geschwindigkeit als auch auf Genauigkeit überzeugt. Der Quellcode, Daten und Modelle sind unter https://github.com/opendatalab/DocLayout-YOLO verfügbar.