17日前
CorDEL:エンティティリンクエージョンのための対照的ディープラーニングアプローチ
Zhengyang Wang, Bunyamin Sisman, Hao Wei, Xin Luna Dong, Shuiwang Ji

要約
エンティティリンク(Entity Linkage, EL)は、データクリーニングおよび統合において重要な課題である。過去数十年にわたり、ELは主にルールベースのシステムや手動で特徴を設計した従来の機械学習モデルによって実施されてきたが、これらはいずれも人的な手作業に強く依存していた。近年、新規データの急激な増加に伴い、従来モデルに伴う高いコストを軽減するため、深層学習(Deep Learning, DL)に基づくアプローチが提案されている。しかし、既存のDLモデルにおけるELへの応用は、広く知られたツインネットワーク(twin-network)アーキテクチャに厳密に従っている。本研究では、このツインネットワークアーキテクチャがELに対して本質的に最適ではないと主張し、既存モデルに内在する欠点を引き起こしていると指摘する。この問題を解決するため、本研究では新たな汎用的な対照的深層学習フレームワークを提案する。このフレームワークは、構文的および意味的マッチングの信号を同時に捉える能力を有し、微細だが重要な差異にも着目できる。このフレームワークを基盤として、3つの強力な変種を備えた対照的深層学習手法CorDELを構築した。CorDELは、公開ベンチマークデータセットおよび実世界のデータセットを用いた広範な実験を通じて評価された。その結果、公開ベンチマークデータセットでは従来の最先端モデルを5.2%上回り、実世界データセットでは現在最も優れたDLモデルに対して2.4%の性能向上を達成しつつ、学習パラメータ数を97.6%まで削減することに成功した。