HyperAIHyperAI
vor 12 Tagen

Tiefen Neuronale Netze für die Informationsextraktion aus Webseiten

{and Jan Sedivy, Hubacek Ondrej, Tomas Gogar}
Tiefen Neuronale Netze für die Informationsextraktion aus Webseiten
Abstract

Web-Wrappers sind Systeme zur Extraktion strukturierter Informationen aus Webseiten. Derzeit müssen Wrappers an ein bestimmtes Website-Template angepasst werden, bevor sie mit dem Extraktionsprozess beginnen können. In dieser Arbeit präsentieren wir eine neue Methode, die konvolutionale neuronale Netze nutzt, um einen Wrapper zu lernen, der Informationen auch aus bisher nicht gesehenen Template-Strukturen extrahieren kann. Dadurch benötigt dieser Wrapper keine site-spezifische Initialisierung und ist in der Lage, Informationen aus einer einzigen Webseite zu extrahieren. Außerdem schlagen wir eine Methode zur räumlichen Textkodierung vor, die es ermöglicht, sowohl visuelle als auch textuelle Inhalte einer Webseite in ein einziges neuronales Netz zu kodieren. Erste Experimente zur Extraktion von Produktdaten zeigten sehr vielversprechende Ergebnisse und deuten darauf hin, dass dieser Ansatz zu einem allgemeinen, site-unabhängigen Web-Wrapper führen kann.

Tiefen Neuronale Netze für die Informationsextraktion aus Webseiten | Neueste Forschungsarbeiten | HyperAI