HyperAIHyperAI
il y a 11 jours

Sudowoodo : Apprentissage auto-supervisé contrastif pour l'intégration et la préparation multi-usage des données

Runhui Wang, Yuliang Li, Jin Wang
Sudowoodo : Apprentissage auto-supervisé contrastif pour l'intégration et la préparation multi-usage des données
Résumé

L’apprentissage automatique (ML) joue un rôle de plus en plus important dans les tâches de gestion des données, en particulier dans l’intégration et la préparation des données (DI&P). Toutefois, le succès des approches basées sur le ML dépend fortement de la disponibilité de grands ensembles de données étiquetées de haute qualité pour diverses tâches. En outre, la grande variété des tâches et des pipelines DI&P exige souvent une personnalisation des solutions ML, ce qui peut entraîner des coûts importants en ingénierie de modèles et en expérimentation. Ces facteurs freinent inévitablement l’adoption des approches basées sur le ML dans de nouveaux domaines ou pour de nouvelles tâches.Dans cet article, nous proposons Sudowoodo, un cadre généraliste pour la DI&P fondé sur l’apprentissage par contraste. Sudowoodo repose sur une définition unifiée du problème basée sur le matching, qui couvre un large éventail de tâches DI&P, notamment le matching d’entités (EM) dans l’intégration des données, la correction d’erreurs dans le nettoyage des données, la détection de types sémantiques dans la découverte de données, et bien d’autres. L’apprentissage par contraste permet à Sudowoodo d’apprendre des représentations de données sensibles à la similarité à partir d’un grand corpus d’éléments de données (par exemple, entrées d’entités, colonnes de table) sans recourir à aucune étiquette. Ces représentations apprises peuvent ensuite être utilisées directement ou servir à un ajustement fin (fine-tuning) avec seulement quelques étiquettes afin de soutenir différentes tâches DI&P. Nos résultats expérimentaux montrent que Sudowoodo atteint plusieurs résultats de pointe sur différents niveaux de supervision, surpassant même les meilleures solutions spécialisées précédentes pour le blocage ou le matching dans le cadre du EM. De plus, Sudowoodo obtient des résultats prometteurs dans les tâches de nettoyage des données et de détection de types sémantiques, démontrant ainsi sa grande polyvalence dans les applications DI&P.

Sudowoodo : Apprentissage auto-supervisé contrastif pour l'intégration et la préparation multi-usage des données | Articles de recherche récents | HyperAI