HyperAIHyperAI
il y a 14 jours

Détection des dialectes de fichiers CSV par mesure d'uniformité du tableau et inférence du type de données

{W. García}
Résumé

La simplicité lisible par l’humain avec laquelle le format CSV a été conçu, combinée à l’absence d’une norme strictement définissant ce format, a permis la prolifération de nombreuses variantes dans les dialectes utilisés pour écrire ces fichiers. Ce phénomène a entraîné le besoin d’intervention humaine lors du processus d’extraction et de nettoyage des données, notamment lors de l’échange d’informations entre systèmes de gestion de données, ou entre pays et régions. Cela a conduit au développement d’outils computationnels visant à déterminer avec précision les dialectes des fichiers CSV, afin d’éviter toute perte de données lors du chargement par un système donné. Toutefois, les systèmes actuels présentent des limites et reposent sur des hypothèses qui doivent être améliorées et/ou étendues. Ce papier propose une méthode pour déterminer les dialectes des fichiers CSV fondée sur l’uniformité du tableau, une approche statistique reposant sur la cohérence du tableau et la mesure de la dispersion des enregistrements, ainsi que la détection du type de données dans chaque champ. La méthode proposée atteint une précision de 100 % sur un jeu de données comprenant 147 fichiers CSV extraits d’un cadre d’évaluation standard. De plus, elle est suffisamment précise pour identifier les dialectes en ne lisant que dix enregistrements, bien que davantage de données soient nécessaires dans les cas où les premiers enregistrements ne contiennent pas l’information suffisante pour une détermination fiable du dialecte.

Détection des dialectes de fichiers CSV par mesure d'uniformité du tableau et inférence du type de données | Articles de recherche récents | HyperAI