Command Palette

Search for a command to run...

4ヶ月前

エンティティマッチングにおけるブロッキングのためのディープラーニング:デザインスペースの探索

{AnHai Doan Glenn Fung Derek Paulsen Yash Govind Mourad Ouzzani Nan Tang Han Li Saravanan Thirumuruganathan}

要約

エンティティマッチング(EM)は、同一の現実世界のエンティティを指すデータインスタンスを特定するタスクである。大多数のEMソリューションは、ブロッキング(blocking)とマッチングの2段階で処理を行う。深層学習(DL)をマッチングに応用した研究は多数存在するが、ブロッキングにDLを適用した研究は依然として少数にとどまっている。また、既存のブロッキングに関するDL研究は、単純なDL形式のみを扱っており、一部はラベル付きの学習データを必要としているという制限がある。本論文では、EMにおけるブロッキングにDLを適用する分野で、従来の技術を大きく前進させる「DeepBlocker」フレームワークを提案する。まず、ブロッキングに適用可能なDLソリューションの広大な探索空間を定義し、その空間は多様な複雑性を持つソリューションを包含しており、これまでの多くの先行研究を含む。次に、その空間内に8つの代表的なソリューションを構築した。これらのソリューションはラベル付き学習データを必要とせず、近年のDLの進展(例えば、シーケンスモデリング、Transformer、自己教師学習)を活用している。実験的に、どのソリューションがどのようなデータセット(構造化データ、テキストデータ、汚染されたデータ)において最も効果的であるかを評価した。その結果、提案した8つのソリューションのうち最良のものについて、既存の最良のDLソリューションおよび非DLソリューション(包括的に最新の産業界向け非DLソリューションを含む)を上回ることを確認した。特に、汚染されたデータおよびテキストデータに対して顕著な性能向上が得られた。一方、構造化データでは、既存の非DLソリューションと同等の性能を発揮した。最後に、最良のDLソリューションと非DLソリューションを組み合わせることで、さらに高い性能が達成可能であることを示した。これは、今後の研究における新たなアプローチの可能性を示唆している。

ベンチマーク

ベンチマーク方法論指標
blocking-on-abt-buyAuto
Candidate Set Size: 21600
Recall: 87.2
blocking-on-amazon-googleAuto
Candidate Set Size: 68200
Recall: 97.1

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
エンティティマッチングにおけるブロッキングのためのディープラーニング:デザインスペースの探索 | 論文 | HyperAI超神経