17日前

DCoM:意味的データ型検出のためのディープカラムマッパー

Subhadip Maji, Swapna Sourav Rout, Sudeep Choudhary
DCoM:意味的データ型検出のためのディープカラムマッパー
要約

意味的データ型の検出は、自動データクリーニング、スキーママッチング、データ発見、意味的データ型の正規化、および機密データの識別において、データサイエンスにおいて極めて重要なタスクである。従来の手法には、正規表現ベースまたは辞書照合ベースの方法が含まれるが、これらは汚染されたデータや未知のデータに対して堅牢性が低く、予測可能な意味的データ型の数が非常に限られているという課題がある。既存の機械学習手法は、データから多数のエンジニアリング特徴量を抽出し、ロジスティック回帰、ランダムフォレスト、またはフィードフォワードニューラルネットワークを用いて分類を行う。本論文では、データから大量の特徴量を抽出するのではなく、カラム(またはインスタンス)の生の値をテキストとしてモデルに直接入力する、複数入力型のNLPベースの深層ニューラルネットワーク群であるDCoMを提案する。DCoMは、VizNetコーパスから抽出された686,765個のデータカラムを用いて学習し、78種類の異なる意味的データ型を対象としている。同じデータセット上で、DCoMは他の最新手法と比較して著しく優れた性能を示した。