18日前

エンティティマッチングベンチマークタスクのプロファイリング

{Christian Bizer, Anna Primpeli}
要約

エンティティマッチングは、データ統合において中心的なタスクであり、数十年にわたり研究が進められてきた。その間、エンティティマッチング手法の評価を目的とした多数のベンチマークタスクが開発されてきた。本論文では、21のエンティティマッチングベンチマークタスクについて、体系的に補完し、特徴を明らかにし、比較を行う。異なるタスクに伴う具体的な課題をより深く理解するため、マッチングタスクの中心的な側面を捉えるための複数のプロファイリング次元を定義した。これらの次元を用いて、類似した特徴を持つベンチマークタスクをグループ化した。その後、標準的な特徴工学と2つの一般的な分類手法を用いてベースライン評価結果を計算し、各グループ内のタスクの難易度を評価した。評価結果の正確な再現性を確保するためには、マッチングレコードペアと非マッチングレコードペアが明確に定義されたセット、および固定された開発用・テスト用データ分割が必須である。しかし、一部の広く用いられているベンチマークタスクでは、これらの条件が満たされていない。そこで、これらのタスクに対して、固定された非マッチングペアセットおよび固定された分割を補完し、その結果得られた開発用・テスト用データセットを公開ダウンロード可能として提供した。本研究によるベンチマークタスクのプロファイリングと補完を通じて、研究者が挑戦的かつ多様なタスクを選定し、明確に定義された基準に基づいてマッチングシステムを比較することが可能となる。