HyperAIHyperAI
il y a 2 mois

CoVA : Attention visuelle contextuelle pour l'extraction d'informations sur les pages web

Anurendra Kumar; Keval Morabia; Jingjin Wang; Kevin Chen-Chuan Chang; Alexander Schwing
CoVA : Attention visuelle contextuelle pour l'extraction d'informations sur les pages web
Résumé

L'extraction d'informations à partir de pages web (WIE) est une étape cruciale pour la création de bases de connaissances. Pour ce faire, les méthodes classiques de WIE s'appuient sur l'arbre du modèle objet document (DOM) d'un site web. Cependant, l'utilisation de l'arbre DOM présente des défis importants car le contexte et l'apparence sont codés de manière abstraite. Afin de relever ce défi, nous proposons de reformuler la WIE en tant que tâche de détection d'objets sur les pages web prenant en compte le contexte. Plus précisément, nous développons un pipeline de détection basé sur une attention visuelle contextuelle (CoVA), qui combine les caractéristiques d'apparence avec la structure syntaxique issue de l'arbre DOM. Pour étudier cette approche, nous avons collecté un nouveau jeu de données à grande échelle composé de sites web e-commerce, pour lesquels nous avons manuellement annoté chaque élément web avec quatre étiquettes : prix du produit, titre du produit, image du produit et arrière-plan. Sur cet ensemble de données, nous montrons que l'approche CoVA proposée constitue une nouvelle base de référence stimulante qui améliore les méthodes précédentes considérées comme étant à l'état de l'art.