HyperAIHyperAI

Command Palette

Search for a command to run...

Déduplication sur des types d'attributs hétérogènes (D-HAT)

George Papadakis Loujain Liekah

Résumé

La déduplication consiste à reconnaître plusieurs représentations du même objet du monde réel. La majorité des solutions existantes se concentre sur les données textuelles, ce qui signifie que les jeux de données contenant des attributs booléens ou numériques sont rarement pris en compte dans la littérature, tandis que le problème des valeurs manquantes est insuffisamment traité. Les approches supervisées ne peuvent être appliquées sans un nombre adéquat d'exemples étiquetés, mais l'obtention de données d'entraînement pour la déduplication ne peut se faire qu'à travers des processus coûteux en temps. Dans les jeux de données à haute dimension, une ingénierie de caractéristiques est également nécessaire afin d’éviter le risque de surajustement. Pour relever ces défis, nous allons au-delà des travaux existants grâce à D-HAT, un pipeline basé sur le regroupement, intrinsèquement capable de traiter des attributs de haute dimension, rares et hétérogènes. Au cœur de D-HAT se trouvent : (i) une nouvelle fonction de correspondance qui synthétise efficacement plusieurs signaux de correspondance, et (ii) MutMax, un algorithme de regroupement glouton qui identifie comme doublons les paires présentant un score de correspondance mutuellement maximal. Nous évaluons D-HAT sur cinq jeux de données réels et bien établis, démontrant que notre approche surpasse de manière significative les algorithmes supervisés et non supervisés d’état de l’art en déduplication.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp