HyperAIHyperAI
vor 2 Monaten

Neuronale Kollaborative Graphenmaschinen für die Tabellenstrukturerkennung

Hao Liu; Xin Li; Bing Liu; Deqiang Jiang; Yinsong Liu; Bo Ren
Neuronale Kollaborative Graphenmaschinen für die Tabellenstrukturerkennung
Abstract

Kürzlich wurde bei der Tabellenstrukturerkennung mit Hilfe tiefer Graphmodelle erstaunlicher Fortschritt erzielt. Die meisten dieser Modelle nutzen entweder einzelne visuelle Merkmale von Tabellenelementen oder kombinieren diese einfach mit anderen Modalitäten durch frühe Fusion, um ihre Graphbeziehungen zu analysieren. Allerdings sind weder die frühe Fusion noch die individuelle Analyse mehrerer Modalitäten für alle Arten von Tabellenstrukturen, die eine große Vielfalt aufweisen, angemessen. Stattdessen wird erwartet, dass verschiedene Modalitäten in verschiedenen Mustern je nach Tabelle zusammenarbeiten. In der Fachgemeinschaft ist die Bedeutung von inner- und zwischenmodalen Interaktionen für die Tabellenstrukturanalyse bisher noch nicht ausreichend erforscht. In dieser Arbeit definieren wir dies als Problem der heterogenen Tabellenstrukturerkennung (Hetero-TSR). Um diese Lücke zu schließen, präsentieren wir ein neuartiges neuronales kollaboratives Graphenmaschinenmodell (Neural Collaborative Graph Machines, NCGM), das mit gestapelten kollaborativen Blöcken ausgestattet ist. Diese extrahieren alternierend innermodale Kontexte und modellieren zwischenmodale Interaktionen in einer hierarchischen Weise. Es kann die inner- und zwischenmodalen Beziehungen von Tabellenelementen robuster darstellen, was die Erkennungsleistung erheblich verbessert. Wir zeigen außerdem, dass das vorgeschlagene NCGM den kollaborativen Muster verschiedener Modalitäten anhand des Kontexts der innermodalen Merkmale anpassen kann, was für vielfältige Tabellenfälle entscheidend ist. Experimentelle Ergebnisse auf Benchmarks belegen, dass unser vorgeschlagenes NCGM den Stand der Technik erreicht und andere zeitgenössische Methoden insbesondere unter herausfordernden Szenarien deutlich übertrifft.

Neuronale Kollaborative Graphenmaschinen für die Tabellenstrukturerkennung | Neueste Forschungsarbeiten | HyperAI