11일 전

스도우두: 다목적 데이터 통합 및 준비를 위한 대조형 자기지도 학습

Runhui Wang, Yuliang Li, Jin Wang
스도우두: 다목적 데이터 통합 및 준비를 위한 대조형 자기지도 학습
초록

머신러닝(ML)은 데이터 관리 작업, 특히 데이터 통합 및 준비(Data Integration and Preparation, DI&P) 분야에서 점점 더 중요한 역할을 하고 있다. 그러나 ML 기반 접근법의 성공은 다양한 작업에 대해 대규모이고 고품질의 레이블이 붙은 데이터셋의 가용성에 크게 의존한다. 또한 DI&P 작업과 파이프라인의 다양성이 높아, 각각의 작업에 맞게 맞춤형 ML 솔루션을 설계해야 하는 경우가 많으며, 이는 모델 엔지니어링과 실험에 상당한 비용을 수반한다. 이러한 요인들은 ML 기반 접근법이 새로운 도메인과 작업에 적용되는 것을 불가피하게 지연시키고 있다.본 논문에서는 대조적 표현 학습(contrastive representation learning)을 기반으로 한 다목적 DI&P 프레임워크인 Sudowoodo를 제안한다. Sudowoodo는 Entity Matching(EM)을 포함한 데이터 통합에서의 엔티티 매칭, 데이터 정제에서의 오류 수정, 데이터 탐색에서의 의미적 타입 탐지 등 다양한 DI&P 작업을 통합된 매칭 기반 문제 정의로 포괄한다. 대조적 학습을 통해 Sudowoodo는 레이블 없이도 대규모 데이터 항목(예: 엔티티 항목, 테이블 컬럼)의 코퍼스로부터 유사도 인지 가능한 데이터 표현을 학습할 수 있다. 학습된 표현은 이후 직접 활용하거나, 소량의 레이블만을 사용해 미세 조정(fine-tuning)하여 다양한 DI&P 작업을 지원할 수 있다. 실험 결과, Sudowoodo는 다양한 수준의 감독 환경에서 다수의 최신 기술(SOTA) 성능을 달성하며, 기존 최고의 전용 블로킹 또는 매칭 솔루션보다 EM 작업에서 뛰어난 성능을 보였다. 또한 데이터 정제 및 의미적 타입 탐지 작업에서도 유망한 성과를 거두며, DI&P 응용 분야에서의 뛰어난 유연성과 적용 가능성을 입증하였다.

스도우두: 다목적 데이터 통합 및 준비를 위한 대조형 자기지도 학습 | 최신 연구 논문 | HyperAI초신경