Réseaux de neurones profonds pour l'extraction d'informations à partir de pages web

Les wrappers web sont des systèmes destinés à extraire des informations structurées à partir de pages web. Actuellement, ces wrappers doivent être adaptés à un modèle spécifique de site web avant de pouvoir commencer le processus d’extraction. Dans ce travail, nous présentons une nouvelle méthode qui utilise des réseaux de neurones convolutifs pour apprendre un wrapper capable d’extraire des informations à partir de modèles de pages web inconnus jusqu’alors. Ce wrapper n’a donc pas besoin d’une initialisation spécifique au site et est capable d’extraire des informations à partir d’une seule page web. Nous proposons également une méthode d’encodage spatial du texte, qui permet de représenter à la fois le contenu visuel et le contenu textuel d’une page web dans un unique réseau neuronal. Les premiers essais portant sur l’extraction d’informations produits ont montré des résultats très prometteurs, suggérant que cette approche pourrait mener au développement de wrappers web généraux, indépendants des sites.