18日前

エンティティマッチングにおけるディープラーニング:デザインスペースの探索

{Vijay Raghavendra, Esteban Arcaute, Rohit Deep, Ganesh Krishnan, Youngchoon Park, AnHai Doan, Theodoros Rekatsinas, Han Li, Sidharth Mudgal}
エンティティマッチングにおけるディープラーニング:デザインスペースの探索
要約

エンティティマッチング(EM)は、同一の現実世界のエンティティを指すデータインスタンスを特定するタスクである。本稿では、深層学習(DL)をEMに適用する際の利点と限界を検討する。まず、テキスト処理における関連するマッチングタスク(例:エンティティリンク、テキスト含意など)に向けた多数のDL手法をレビューし、それらを分類することで、EMに適用可能なDL手法の枠組みを定義する。この枠組みは、表現力の異なる4つの手法(SIF、RNN、Attention、Hybrid)によって具体化される。次に、DLが有効となるEMの問題タイプを検討する。具体的には、構造化データインスタンス、テキストインスタンス、および汚染された(dirty)インスタンスのマッチングという3種類の問題タイプを対象とする。これらの問題に対して、最先端の学習ベースのEM手法であるMagellanと、上記の4つのDL手法を実証的に比較した。その結果、構造化EMにおいてはDLが現在の手法を上回ることはなかったが、テキストEMおよび汚染データEMにおいては、DLが著しく優れた性能を発揮することが明らかになった。このことから、実務家にとって、テキストおよび汚染データのEM問題に対しては、DLの活用を真剣に検討すべきであると示唆される。最後に、DLの性能を分析し、今後の研究課題について議論する。