2 个月前

ColNet:嵌入网页表格语义以预测列类型

Jiaoyan Chen; Ernesto Jimenez-Ruiz; Ian Horrocks; Charles Sutton
ColNet:嵌入网页表格语义以预测列类型
摘要

自动标注列类型(column types)为知识库(KB)概念是理解网络表格基本内容的关键任务。目前的方法主要依赖于表格元数据(如列名)或知识库中的单元格实体对应关系,但在处理元信息不完整的不断增长的网络表格时可能失效。本文提出了一种基于神经网络的列类型标注框架——ColNet,该框架能够将知识库推理和查找与机器学习相结合,并能自动训练卷积神经网络进行预测。预测模型不仅通过词表示考虑了单元格内的上下文语义,还通过从多个单元格中学习局部特征来嵌入列的语义。该方法在DBPedia以及两个不同的网络表格数据集上进行了评估:来自普通网页的T2Dv2和来自维基百科页面的Limaye,其性能优于现有的最先进方法。