CoVA: Kontextsensitive visuelle Aufmerksamkeit für die Informationsextraktion von Webseiten

Die Extraktion von Webseiteninformationen (WIE) ist ein wichtiger Schritt zur Erstellung von Wissensbasen. Klassische WIE-Methoden nutzen dazu das Document Object Model (DOM)-Baum einer Website. Allerdings birgt die Verwendung des DOM-Baums erhebliche Herausforderungen, da Kontext und Erscheinungsbild in abstrakter Form kodiert sind. Um dieser Herausforderung zu begegnen, schlagen wir vor, WIE als kontextsensitive Webseitenobjekterkennungsaufgabe zu reformulieren. Insbesondere entwickeln wir einen kontextsensitiven visuellen Aufmerksamkeitsbasierten (CoVA) Erkennungsprozess, der Erscheinungsmerkmale mit der syntaxischen Struktur des DOM-Baums kombiniert. Um den Ansatz zu untersuchen, sammeln wir einen neuen groß angelegten Datensatz von E-Commerce-Webseiten, für die wir jedes Webelement manuell mit vier Etiketten versehen: Produktpreis, Produkttitel, Produktbild und Hintergrund. Anhand dieses Datensatzes zeigen wir, dass der vorgeschlagene CoVA-Ansatz eine neue anspruchsvolle Referenzlinie darstellt, die die bisherigen Stand-of-the-Art-Methoden verbessert.