要約
教師付きエンティティ解決手法は、2つ以上のデータソース間のマッチングパターンを学習するためにラベル付きレコードペアに依存している。アクティブラーニングは、ラベル付けに必要な作業を最小限に抑えるために、情報量の多いレコードペアを選択してラベル付けを行う。既存のエンティティ解決用アクティブラーニング手法はすべて二源マッチングのシナリオを対象としており、ウェブ・オブ・データ(Web of Data)などにのみ存在するマルチソース環境特有の信号を無視している。本論文では、マルチソースエンティティ解決を対象としたグラフ強化型アクティブラーニング手法であるALMSERを提案する。筆者らの知る限り、ALMSERはマルチソース環境に特化して設計された、初めてのアクティブラーニングベースのエンティティ解決手法である。ALMSERはマルチソース環境に内在する豊富な対応グラフ(correspondence graph)を活用し、情報量の高いレコードペアを選択する。さらに、この対応グラフを用いて補完的な訓練データを生成する。本手法は、異なるプロファイリング特性を持つ5つのマルチソースマッチングタスクを用いて評価された。実験結果から、グラフ信号を活用することで、マージンベースおよびコミッティベースのクエリ戦略を用いる従来のアクティブラーニング手法と比較して、すべてのタスクにおいてF1スコアにおいて優れた性能が得られることを示した。