
機械学習(ML)は、データ管理タスク、特にデータ統合および前処理(DI&P)においてますます重要な役割を果たしている。しかし、MLに基づくアプローチの成功は、さまざまなタスクに適した大規模かつ高品質なラベル付きデータセットの可用性に大きく依存している。さらに、DI&Pタスクやパイプラインの多様性により、しばしばカスタマイズされたMLソリューションの開発が必要となり、モデルエンジニアリングや実験に大きなコストがかかる。これらの要因は、MLベースのアプローチが新たな分野やタスクへの導入を妨げる要因となっている。本論文では、対照的表現学習(contrastive representation learning)に基づく多目的DI&Pフレームワーク「Sudowoodo」を提案する。Sudowoodoは、データ統合におけるエンティティマッチング(EM)、データクリーニングにおける誤り修正、データディスカバリにおける意味的タイプ検出など、幅広いDI&Pタスクを統一的かつマッチングベースの問題定義で捉える特徴を持つ。対照学習により、Sudowoodoはラベルを一切使用せずに、大量のデータアイテム(例:エンティティエントリ、テーブルカラムなど)のコアスコアから類似度に敏感なデータ表現を学習できる。得られた表現は、後続のタスクで直接利用可能であるほか、少数のラベルを用いたファインチューニングにより、さまざまなDI&Pタスクを効果的にサポートできる。実験結果から、Sudowoodoは異なるラベル量の設定において複数の最先端の性能を達成し、従来の最良の専用ブロッキングまたはマッチング手法よりもEMタスクで優れた結果を示した。また、データクリーニングおよび意味的タイプ検出タスクにおいても有望な結果を達成しており、SudowoodoのDI&P応用における汎用性が確認された。