12日前

ウェブページ情報抽出のためのディープニューラルネットワーク

{and Jan Sedivy, Hubacek Ondrej, Tomas Gogar}
ウェブページ情報抽出のためのディープニューラルネットワーク
要約

Webラッパーは、Webページから構造化された情報を抽出するためのシステムである。現在のところ、ラッパーは情報抽出を開始する前に、特定のWebサイトテンプレートに合わせて調整する必要がある。本研究では、畳み込みニューラルネットワーク(CNN)を用いて、未確認のテンプレートからも情報抽出が可能なラッパーを学習する新しい手法を提案する。このため、本ラッパーはサイト固有の初期化を必要とせず、1つのWebページからも情報を抽出することが可能である。さらに、ウェブページの視覚的およびテキスト的コンテンツを1つのニューラルネットワークに統合して表現するための空間的テキスト符号化手法も提案している。製品情報抽出を対象とした初期実験の結果は非常に有望であり、本アプローチが汎用的かつサイト依存のないWebラッパーの実現に繋がる可能性を示唆している。

ウェブページ情報抽出のためのディープニューラルネットワーク | 最新論文 | HyperAI超神経