11일 전

DCoM: 의미적 데이터 유형 탐지를 위한 딥 컬럼 매퍼

Subhadip Maji, Swapna Sourav Rout, Sudeep Choudhary
DCoM: 의미적 데이터 유형 탐지를 위한 딥 컬럼 매퍼
초록

의미론적 데이터 유형 탐지는 자동 데이터 정제, 스키마 매칭, 데이터 탐색, 의미론적 데이터 유형 정규화 및 민감 데이터 식별과 같은 데이터 과학 분야에서 매우 중요한 과제이다. 기존의 방법들은 정규 표현식 기반 또는 사전 검색 기반의 접근 방식을 사용하는데, 이러한 방법들은 더러운 데이터나 미리 보지 못한 데이터에 대해 강건성이 부족하며 예측 가능한 의미론적 데이터 유형의 수가 매우 제한적이다. 기존의 머신러닝 기반 방법들은 데이터에서 대량의 엔지니어링 특징을 추출한 후 로지스틱 회귀, 랜덤 포레스트 또는 전방향 신경망을 구축하여 이 문제를 해결한다. 본 논문에서는 DCoM을 제안한다. DCoM은 다중 입력 NLP 기반의 심층 신경망 집합으로, 데이터로부터 대량의 특징을 추출하는 대신 열(또는 인스턴스)의 원시 값을 텍스트 형태로 모델에 직접 입력한다. 우리는 VizNet 코퍼스에서 추출한 686,765개의 데이터 열을 대상으로 78개의 서로 다른 의미론적 데이터 유형을 학습시켜 DCoM을 훈련시켰다. 실험 결과, 동일한 데이터셋에서 DCoM은 기존의 최신 기법들에 비해 상당한 성능 차이를 보이며 우수한 성능을 달성하였다.

DCoM: 의미적 데이터 유형 탐지를 위한 딥 컬럼 매퍼 | 최신 연구 논문 | HyperAI초신경