12 天前

基于深度神经网络的网页信息抽取

{and Jan Sedivy, Hubacek Ondrej, Tomas Gogar}
基于深度神经网络的网页信息抽取
摘要

网页抽取器(web wrappers)是用于从网页中提取结构化信息的系统。目前,这些抽取器在开始信息提取前,必须针对特定的网站模板进行适配。本文提出了一种新方法,利用卷积神经网络(convolutional neural networks)学习一个能够从此前未见过的网页模板中提取信息的抽取器。因此,该抽取器无需任何针对特定网站的初始化,即可直接从单个网页中完成信息提取。此外,我们还提出了一种空间文本编码方法,能够将网页的视觉与文本内容统一编码为一个神经网络表示。初步的产品信息抽取实验取得了非常令人鼓舞的结果,表明该方法有望实现通用、与网站无关的网页抽取器。

基于深度神经网络的网页信息抽取 | 最新论文 | HyperAI超神经