HyperAIHyperAI

Command Palette

Search for a command to run...

異種属性タイプにおける重複除去(D-HAT)

George Papadakis Loujain Liekah

概要

重複除去(Deduplication)とは、同一の現実世界のオブジェクトを複数の表現形態で表していることを認識するタスクである。既存の大多数の解決策はテキストデータに焦点を当てており、論文においては論理値および数値型の属性を含むデータセットはほとんど取り上げられていない。また、欠損値の問題に対しても十分な対応がなされていない。教師あり手法は十分なラベル付き例がなければ適用できないが、重複除去のための訓練データは、時間とコストを要するプロセスを経てしか得られず、限界がある。高次元データセットでは、過学習のリスクを回避するための特徴工学(feature engineering)も必須となる。こうした課題に対処するため、本研究ではD-HATと呼ばれるクラスタリングに基づくパイプラインを提案する。D-HATは、高次元・スパース・異種属性型のデータを本質的に処理可能な仕組みを備え、既存の手法を超越している。その中心には以下の2つの要素がある:(i) 複数の一致信号を効果的に要約する新しいマッチング関数、および (ii) 互いに最大のマッチングスコアを持つペアを重複として指定する、貪欲型のクラスタリングアルゴリズム「MutMax」。本手法は、5つの既存の実世界ベンチマークデータセットを用いて評価され、従来の最先端の教師ありおよび教師なし重複除去アルゴリズムを著しく上回ることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
異種属性タイプにおける重複除去(D-HAT) | 記事 | HyperAI超神経