il y a 6 mois

Résumé

La simplicité lisible par l’humain avec laquelle le format CSV a été conçu, combinée à l’absence d’une norme strictement définissant ce format, a permis la prolifération de nombreuses variantes dans les dialectes utilisés pour écrire ces fichiers. Ce phénomène a entraîné le besoin d’intervention humaine lors du processus d’extraction et de nettoyage des données, notamment lors de l’échange d’informations entre systèmes de gestion de données, ou entre pays et régions. Cela a conduit au développement d’outils computationnels visant à déterminer avec précision les dialectes des fichiers CSV, afin d’éviter toute perte de données lors du chargement par un système donné. Toutefois, les systèmes actuels présentent des limites et reposent sur des hypothèses qui doivent être améliorées et/ou étendues. Ce papier propose une méthode pour déterminer les dialectes des fichiers CSV fondée sur l’uniformité du tableau, une approche statistique reposant sur la cohérence du tableau et la mesure de la dispersion des enregistrements, ainsi que la détection du type de données dans chaque champ. La méthode proposée atteint une précision de 100 % sur un jeu de données comprenant 147 fichiers CSV extraits d’un cadre d’évaluation standard. De plus, elle est suffisamment précise pour identifier les dialectes en ne lisant que dix enregistrements, bien que davantage de données soient nécessaires dans les cas où les premiers enregistrements ne contiennent pas l’information suffisante pour une détermination fiable du dialecte.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Jeu De Données

Apprentissage Profond

Compréhension De Document

Domaine De Recherche

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

W. García

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Jeu De Données

Apprentissage Profond

Compréhension De Document

Domaine De Recherche

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

W. García

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Détection des dialectes de fichiers CSV par mesure d'uniformité du tableau et inférence du type de données

W. García

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Détection des dialectes de fichiers CSV par mesure d'uniformité du tableau et inférence du type de données

W. García

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Détection des dialectes de fichiers CSV par mesure d'uniformité du tableau et inférence du type de données

W. García

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters