18日前

FAMERを用いたスケーラブルなエンティティのマッチングおよびクラスタリング

{Erhard Rahm, Eric Peukert, Markus Nentwig, Alieh Saeedi}
要約

エンティティ解決(Entity resolution)は、同一の製品や顧客などを意味的に同等とみなすエンティティを特定する技術であり、特に多数のデータソースから大量のデータを照合・統合する必要があるビッグデータアプリケーションにおいて、極めて困難な課題である。そこで本研究では、分散実行をApache Flinkを基盤として行うことができるスケーラブルなエンティティ解決フレームワーク「FAMER(FAst Multi-source Entity Resolution system)」を提案する。FAMERは、複数のデータソースからのエンティティを包括的に照合できる仕組みを備えており、その実現のため、異なるソースからの一致するエンティティをクラスタ内にグループ化する複数のクラスタリング方式を内蔵している。従来知られていたクラスタリング方式に加えて、多ソースエンティティ解決に特化した新たなアプローチも導入している。本研究では、実世界データおよび合成データを用いた8種類のクラスタリング方式について、詳細な比較評価を実施した。評価は、照合品質(match quality)と、マシン数やデータサイズの変化に伴うスケーラビリティの両面から行われ、実用性と性能のバランスを総合的に検証した。