要約
重複除去(Deduplication)とは、同一の現実世界のオブジェクトを複数の表現形態で表していることを認識するタスクである。既存の大多数の解決策はテキストデータに焦点を当てており、論文においては論理値および数値型の属性を含むデータセットはほとんど取り上げられていない。また、欠損値の問題に対しても十分な対応がなされていない。教師あり手法は十分なラベル付き例がなければ適用できないが、重複除去のための訓練データは、時間とコストを要するプロセスを経てしか得られず、限界がある。高次元データセットでは、過学習のリスクを回避するための特徴工学(feature engineering)も必須となる。こうした課題に対処するため、本研究ではD-HATと呼ばれるクラスタリングに基づくパイプラインを提案する。D-HATは、高次元・スパース・異種属性型のデータを本質的に処理可能な仕組みを備え、既存の手法を超越している。その中心には以下の2つの要素がある:(i) 複数の一致信号を効果的に要約する新しいマッチング関数、および (ii) 互いに最大のマッチングスコアを持つペアを重複として指定する、貪欲型のクラスタリングアルゴリズム「MutMax」。本手法は、5つの既存の実世界ベンチマークデータセットを用いて評価され、従来の最先端の教師ありおよび教師なし重複除去アルゴリズムを著しく上回ることを示した。