17日前

WDC Products: マルチディメンショナルエンティティマッチングベンチマーク

Ralph Peeters, Reng Chiz Der, Christian Bizer
WDC Products: マルチディメンショナルエンティティマッチングベンチマーク
要約

エンティティマッチングタスクの難易度は、角ケース(corner-case)ペアの数、トレーニング中に観測されていなかったエンティティのテストセット内での割合、および開発セット(development set)のサイズといった複数の要因の組み合わせに依存する。現存するエンティティマッチングベンチマークは、これらの次元のうち一つの点を代表するか、あるいはたとえばトレーニングデータ量といった単一の次元に沿ったマッチング手法の評価を提供しているにとどまる。本論文では、現実世界のデータに基づき、3つの次元の組み合わせに沿ってマッチングシステムを体系的に評価可能な「WDC Products」というエンティティマッチングベンチマークを提示する。この3つの次元は(i)角ケースの量、(ii)未観測エンティティへの一般化能力、(iii)開発セットサイズ(トレーニングセット+検証セット)である。(ii)未観測エンティティへの一般化能力は、既存の英語圏ベンチマークではいずれもカバーされていないが、エンティティマッチングシステムのロバスト性を評価する上で極めて重要な次元である。エンティティマッチングは、エンティティペアのマッチング方法を学習するというアプローチに加えて、マッチャーが個々のエンティティを識別できるようにする多クラス分類問題として定式化することも可能である。WDC Productsは、同一タスクに対してペアワイズ形式と多クラス形式の両方を提供する初のベンチマークである。本研究では、Ditto、HierGAT、R-SupConといった最先端のマッチングシステムを用いてWDC Productsを評価した。その結果、すべてのマッチングシステムが未観測エンティティに対して不同程度の困難を示すことが明らかになった。また、エンティティマッチングにおける対照学習(contrastive learning)は、クロスエンコーダー(cross-encoder)と比較して、トレーニングデータの利用効率が優れていることも示された。

WDC Products: マルチディメンショナルエンティティマッチングベンチマーク | 最新論文 | HyperAI超神経