HyperAIHyperAI
vor 2 Monaten

ColNet: Einbetten der Semantik von Webtabellen für die Vorhersage von Spaltentypen

Jiaoyan Chen; Ernesto Jimenez-Ruiz; Ian Horrocks; Charles Sutton
ColNet: Einbetten der Semantik von Webtabellen für die Vorhersage von Spaltentypen
Abstract

Die automatische Annotierung von Spaltentypen mit Konzepten aus einer Wissensbasis (KB) ist eine entscheidende Aufgabe, um ein grundlegendes Verständnis von Webtabellen zu erlangen. Aktuelle Methoden basieren entweder auf Tabellenmetadaten wie der Spaltenbezeichnung oder auf Entitätskorrespondenzen der Zellen in der KB und können möglicherweise nicht mit wachsenden Webtabellen umgehen, die unvollständige Metainformationen enthalten. In dieser Arbeit schlagen wir einen neuronale-Netz-basierten Rahmen zur Annotierung von Spaltentypen vor, den wir ColNet nennen. Dieser Ansatz ist in der Lage, Wissensbasen-Schließungen und -abfragen mit maschinellem Lernen zu integrieren und kann Convolutional Neural Networks (CNNs) automatisch für Vorhersagen trainieren. Das Vorhersagemodell berücksichtigt nicht nur die kontextuellen Semantiken innerhalb einer Zelle durch Wortrepräsentation, sondern kodiert auch die Semantik einer Spalte, indem es Lokalitätsmerkmale aus mehreren Zellen lernt. Die Methode wurde anhand von DBPedia und zwei unterschiedlichen Webtablendatensätzen evaluiert: T2Dv2 aus dem allgemeinen Web und Limaye aus Wikipedia-Seiten. Dabei erreichte sie bessere Leistungen als die bislang besten Ansätze.