CISOL: Ein offenes und erweiterbares Datensatz für die Tabellenstrukturerkennung im Bauwesen

Wiedergewinnung und Reproduzierbarkeit sind entscheidende Säulen der empirischen Forschung, insbesondere im maschinellen Lernen, wo sie nicht nur von der Verfügbarkeit von Modellen, sondern auch von den Datensätzen abhängen, die zur Ausbildung und Bewertung dieser Modelle verwendet werden. In diesem Artikel stellen wir den Datensatz „Construction Industry Steel Ordering List“ (CISOL) vor, der mit dem Fokus auf Transparenz entwickelt wurde, um Wiedergewinnung, Reproduzierbarkeit und Erweiterbarkeit zu gewährleisten. CISOL bietet eine wertvolle neue Forschungsressource und unterstreicht die Bedeutung vielfältiger Datensätze, selbst in spezialisierten Anwendungsbereichen wie der Tabellenextraktion im Bauingenieurwesen.CISOL ist einzigartig dadurch, dass er reale Bauingenieururkunden aus der Industrie enthält, was einen bedeutenden Beitrag zum Bereich darstellt. Der Datensatz umfasst mehr als 120.000 annotierte Instanzen in über 800 Dokumentbildern und stellt somit einen mittelgroßen Datensatz dar, der eine solide Grundlage für Aufgaben der Tabellenstrukturerkennung (TSR) und Tabellenerkennung (TD) bildet.Benchmarks zeigen, dass CISOL mit dem YOLOv8-Modell eine [email protected]:0.95:0.05 von 67,22 erreicht und das TSR-spezifische TATR-Modell übertreffen kann. Dies betont die Effektivität von CISOL als Benchmark für den Fortschritt in der TSR-Forschung, insbesondere in spezialisierten Bereichen.