HyperAIHyperAI

Command Palette

Search for a command to run...

FAMERを用いたスケーラブルなエンティティのマッチングおよびクラスタリング

Erhard Rahm Eric Peukert Markus Nentwig Alieh Saeedi

概要

エンティティ解決(Entity resolution)は、同一の製品や顧客などを意味的に同等とみなすエンティティを特定する技術であり、特に多数のデータソースから大量のデータを照合・統合する必要があるビッグデータアプリケーションにおいて、極めて困難な課題である。そこで本研究では、分散実行をApache Flinkを基盤として行うことができるスケーラブルなエンティティ解決フレームワーク「FAMER(FAst Multi-source Entity Resolution system)」を提案する。FAMERは、複数のデータソースからのエンティティを包括的に照合できる仕組みを備えており、その実現のため、異なるソースからの一致するエンティティをクラスタ内にグループ化する複数のクラスタリング方式を内蔵している。従来知られていたクラスタリング方式に加えて、多ソースエンティティ解決に特化した新たなアプローチも導入している。本研究では、実世界データおよび合成データを用いた8種類のクラスタリング方式について、詳細な比較評価を実施した。評価は、照合品質(match quality)と、マシン数やデータサイズの変化に伴うスケーラビリティの両面から行われ、実用性と性能のバランスを総合的に検証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています