11 天前

Sudowoodo:面向多用途数据集成与预处理的对比自监督学习

Runhui Wang, Yuliang Li, Jin Wang
Sudowoodo:面向多用途数据集成与预处理的对比自监督学习
摘要

机器学习(Machine Learning, ML)在数据管理任务中正发挥着日益重要的作用,尤其是在数据集成与准备(Data Integration and Preparation, DI&P)领域。然而,基于机器学习的方法能否取得成功,高度依赖于大规模、高质量标注数据集的可用性。此外,DI&P任务与处理流程的多样性往往需要对机器学习解决方案进行定制化开发,这带来了显著的模型工程与实验成本,从而在很大程度上制约了机器学习方法在新领域和新任务中的推广应用。本文提出Sudowoodo,一种基于对比学习(contrastive representation learning)的多功能DI&P框架。Sudowoodo采用统一的、基于匹配的问题定义,能够涵盖广泛的DI&P任务,包括数据集成中的实体匹配(Entity Matching, EM)、数据清洗中的错误修正、数据发现中的语义类型检测等。通过对比学习,Sudowoodo能够从大规模数据项语料库(如实体条目、表格列)中无须依赖任何标签,自动学习具有相似性感知能力的数据表示。这些学习到的表示可直接用于下游任务,或仅需少量标注数据即可进行微调,从而支持多种DI&P应用场景。实验结果表明,Sudowoodo在不同监督程度下均取得了多项最先进的性能表现,显著优于以往针对实体匹配任务设计的最佳专用阻塞(blocking)或匹配方案。此外,Sudowoodo在数据清洗和语义类型检测任务中也展现出优异的性能,充分体现了其在DI&P应用中的高度通用性与强大适应能力。

Sudowoodo:面向多用途数据集成与预处理的对比自监督学习 | 最新论文 | HyperAI超神经