HyperAIHyperAI

Command Palette

Search for a command to run...

WDC Products: マルチディメンショナルエンティティマッチングベンチマーク

Ralph Peeters Reng Chiz Der Christian Bizer

概要

エンティティマッチングタスクの難易度は、角ケース(corner-case)ペアの数、トレーニング中に観測されていなかったエンティティのテストセット内での割合、および開発セット(development set)のサイズといった複数の要因の組み合わせに依存する。現存するエンティティマッチングベンチマークは、これらの次元のうち一つの点を代表するか、あるいはたとえばトレーニングデータ量といった単一の次元に沿ったマッチング手法の評価を提供しているにとどまる。本論文では、現実世界のデータに基づき、3つの次元の組み合わせに沿ってマッチングシステムを体系的に評価可能な「WDC Products」というエンティティマッチングベンチマークを提示する。この3つの次元は(i)角ケースの量、(ii)未観測エンティティへの一般化能力、(iii)開発セットサイズ(トレーニングセット+検証セット)である。(ii)未観測エンティティへの一般化能力は、既存の英語圏ベンチマークではいずれもカバーされていないが、エンティティマッチングシステムのロバスト性を評価する上で極めて重要な次元である。エンティティマッチングは、エンティティペアのマッチング方法を学習するというアプローチに加えて、マッチャーが個々のエンティティを識別できるようにする多クラス分類問題として定式化することも可能である。WDC Productsは、同一タスクに対してペアワイズ形式と多クラス形式の両方を提供する初のベンチマークである。本研究では、Ditto、HierGAT、R-SupConといった最先端のマッチングシステムを用いてWDC Productsを評価した。その結果、すべてのマッチングシステムが未観測エンティティに対して不同程度の困難を示すことが明らかになった。また、エンティティマッチングにおける対照学習(contrastive learning)は、クロスエンコーダー(cross-encoder)と比較して、トレーニングデータの利用効率が優れていることも示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
WDC Products: マルチディメンショナルエンティティマッチングベンチマーク | 記事 | HyperAI超神経