2ヶ月前
CoVA: コンテキストに応じた視覚的注意のウェブページ情報抽出への適用
Anurendra Kumar; Keval Morabia; Jingjin Wang; Kevin Chen-Chuan Chang; Alexander Schwing

要約
ウェブページ情報抽出(WIE)は、知識ベースの作成において重要なステップです。これには、従来のWIE手法がウェブサイトのドキュメントオブジェクトモデル(DOM)ツリーを利用します。しかし、DOMツリーの使用は、コンテキストと外観が抽象的な方法で符号化されているため、大きな課題をもたらします。この課題に対処するため、私たちはWIEをコンテキストに配慮したウェブページオブジェクト検出タスクとして再定式化することを提案します。具体的には、コンテキストに配慮した視覚的注意に基づく(CoVA)検出パイプラインを開発し、外観特徴とDOMツリーから得られる文法構造を組み合わせます。このアプローチを研究するために、私たちは電子商取引サイトの新しい大規模データセットを収集し、各ウェブ要素に対して製品価格、製品タイトル、製品画像、および背景という4つのラベルを手動で注釈付けました。このデータセット上で実験を行い、提案されたCoVAアプローチが新たな挑戦的な基準となり、既存の最先端手法よりも性能が向上することを示しました。