Watchog: Ein leichtgewichtiger, contrastiver Lernansatz für die Spaltenannotierung
Relationale Web-Tabellen stellen wertvolle Ressourcen für zahlreiche Anwendungen in nachgeschalteten Aufgaben dar, weshalb das Verständnis von Tabellen – insbesondere die Spaltenannotierung, die semantische Typen und Beziehungen von Spalten identifiziert – zu einem zentralen Thema im Bereich der Datenverwaltung geworden ist. Trotz der jüngsten Bemühungen, verschiedene Aufgaben im Bereich des Tabellenverständnisses durch die Nutzung leistungsstarker vortrainierter Sprachmodelle zu verbessern, stützen sich bestehende Ansätze nach wie vor stark auf großskalige und hochwertige gelabelte Instanzen, während sie weiterhin unter dem Problem der Daten-Sparsamkeit leiden, das durch die ungleichmäßige Verteilung der Daten über verschiedene Klassen verursacht wird. In diesem Paper stellen wir den Watchog-Framework vor, der kontrastive Lernverfahren nutzt, um robuste Repräsentationen für Tabellen zu erlernen, indem er eine großskalige, ungelabelte Tabellenkorpus mit minimalen Ressourcenverbrauch ausnutzt. Unser Ansatz ermöglicht es, die gelernten Tabellenrepräsentationen effizient für das Feinabstimmen einzusetzen, wodurch im Vergleich zu vorherigen Studien deutlich weniger zusätzliche gelabelte Instanzen erforderlich sind. Darüber hinaus entwickeln wir zudem Optimierungstechniken für semi-supervised Szenarien. Experimentelle Ergebnisse auf etablierten Benchmark-Datensätzen belegen die Überlegenheit unserer vorgeschlagenen Techniken bei zwei Aufgaben der Spaltenannotierung unter unterschiedlichen Bedingungen. Insbesondere lindert unser Watchog-Framework effektiv das Problem der Klassenungleichgewicht, das durch eine langschwänzige Labelverteilung entsteht. Im semi-supervised Setting übertrifft Watchog die bisher beste Methode bei der Erkennung semantischer Typen um bis zu 26 % in der Micro-F1-Score und um bis zu 41 % in der Macro-F1-Score.