HyperAI

5 Chapitres, 25 Spécifications, Une Encyclopédie Complète De La Sélection Et De La Création D'ensembles De Données

il y a 2 ans
Information
Yinrong Huang
特色图像

Contenu en un coup d'œil :Si vous apprenez à créer ou à choisir un ensemble de données approprié, cet article vous donnera quelques conseils pratiques pour vous aider à prendre des décisions éclairées lors du choix et de la création d'ensembles de données.

Mots-clés:Ensembles de données d'apprentissage automatique   

Cet article a été publié pour la première fois sur la plateforme publique HyperAI WeChat~

Auteur | xixi

Relecture | Sanyang

Un ensemble de données de haute qualité peut non seulement améliorer la précision et l’efficacité opérationnelle du modèle, mais également économiser du temps de formation et des ressources informatiques.

Dans cet article,Nous nous référons à l'article de Jan Marcel Kezmann « Les choses à faire et à ne pas faire en matière de sélection de jeux de données pour l'apprentissage automatique dont vous devez être conscient », qui explique en détail les méthodes de création et de sélection des ensembles de données. J’espère que cela pourra aider les ingénieurs en science des données à éviter les pièges et à mettre en pratique les meilleures pratiques pour la formation des modèles. Jetons un œil aux conseils~

Lire l'article original en anglais :

https://medium.com/mlearning-ai/the-dos-and-donts-of-dataset-selection-for-machine-learning-you-have-to-be-aware-of-8b14513d94a

Table des matières

1. Meilleures pratiques pour la sélection des ensembles de données

2. Soyez conscient des pièges à éviter

3. 5 conseils

4. Meilleures pratiques pour la création d'ensembles de données

5. Évaluation de l'ensemble de données

Personnes concernées :

Débutants, data scientists, praticiens de l'apprentissage automatique

1. Meilleures pratiques pour la sélection des ensembles de données

Cette section se penchera sur les meilleures pratiques en matière de sélection d’ensembles de données publics.Il y a 6 étapes clés à garder à l’esprit :

1.1 Comprendre le problème 

Il est important de comprendre le problème que vous souhaitez résoudre, notamment en déterminant les variables d’entrée et de sortie, le type de problème (classification, régression, clustering, etc.) et la mesure de performance.

1.2 Définition du problème 

Limitez la portée de l'ensemble de données en spécifiant le secteur ou le domaine, le type de données requises (texte, images, audio, etc.) et toutes les contraintes associées à l'ensemble de données.

1.3 Mettre l'accent sur la qualité 

Trouvez des ensembles de données fiables, précis et pertinents pour votre problème.Vérifiez les données manquantes, les valeurs aberrantes et les incohérences, car ces problèmes peuvent avoir un impact négatif sur les performances de votre modèle.

1.4 Tenez compte de la taille de l'ensemble de données 

La taille de l’ensemble de données affecte la précision et la capacité de généralisation du modèle.Bien que des ensembles de données plus volumineux contribuent à améliorer la précision et la robustesse des modèles, ils impliquent également davantage de ressources de calcul et un temps de formation plus long.

1.5 Vérification du biais 

Un biais dans l’ensemble de données peut conduire à des prédictions injustes ou inexactes. Soyez conscient des biais liés au processus de collecte de données, tels que les biais d’échantillonnage, et des biais liés aux problèmes sociaux, tels que le sexe, la race ou le statut socio-économique.

1.6 Rechercher la diversité 

Le choix d’un ensemble de données diversifié provenant de différentes sources, populations ou emplacements peut aider le modèle à apprendre à partir d’une variété d’exemples différents et à éviter le surajustement.

2. Soyez conscient des pièges à éviter

Cette section s'applique à la fois aux ensembles de données prédéfinis et aux ensembles de données que vous créez vous-même.

2.1 Données insuffisantes

Des données insuffisantes peuvent empêcher le modèle de capturer les modèles sous-jacents dans les données, ce qui entraîne de mauvaises performances. S’il n’y a pas suffisamment de données, vous pouvez envisager d’utiliser des techniques telles que l’augmentation des données ou l’apprentissage par transfert pour améliorer l’ensemble de données ou les capacités du modèle. Si les étiquettes sont cohérentes, plusieurs ensembles de données peuvent être fusionnés en un seul.

2.2 Classes déséquilibrées

Le déséquilibre des classes signifie que le nombre d’échantillons dans une classe est significativement plus grand que celui d’une autre classe, ce qui peut entraîner un biais de prédiction ou d’autres erreurs de modèle. Pour résoudre ce problème, des techniques telles que le suréchantillonnage, le sous-échantillonnage ou la pondération de classe sont suggérées. Le renforcement des classes sous-représentées peut également réduire ce problème.

Conseils utiles :

Différentes tâches d’apprentissage automatique ont des impacts différents sur le modèle en raison du déséquilibre des classes. Par exemple, dans les tâches de détection d’anomalies, un déséquilibre de classe important est normal ; Cependant, cela est moins courant dans les problèmes de classification d'images standard.

2.3 Valeurs aberrantes 

Les valeurs aberrantes sont des points de données qui sont significativement différents des autres échantillons de données et peuvent avoir un impact négatif sur les performances du modèle.Si un ensemble de données contient trop de valeurs aberrantes, un modèle d’apprentissage automatique ou d’apprentissage profond aura souvent du mal à apprendre la distribution souhaitée.

Envisagez d’utiliser des techniques telles que la winsorisation pour supprimer ou corriger les valeurs aberrantes, ou d’utiliser l’imputation moyenne/médiane pour remplacer toutes les valeurs manquantes présentes dans l’échantillon par la moyenne ou la médiane.

2.4 Espionnage et fuite de données 

Pour éviter l'espionnage des données, qui peut conduire à un surapprentissage et à une réduction des performances,Vous devez diviser votre ensemble de données en ensembles d'entraînement, de validation et de test, et utiliser uniquement l'ensemble d'entraînement pour entraîner votre modèle.

D’un autre côté, l’entraînement du modèle avec des données provenant de l’ensemble de test entraînera une fuite de données, conduisant à des estimations de performances trop optimistes. Pour éviter les fuites de données, vous devez toujours conserver les ensembles de validation et de test séparés et les utiliser uniquement pour évaluer le modèle final.

3. 5 conseils

  • Avec l’apprentissage par transfert, un modèle pré-entraîné est utilisé pour résoudre un problème connexe et, pour un problème spécifique, il peut être affiné à l’aide d’un ensemble de données plus petit.
  • Fusionnez plusieurs ensembles de données pour augmenter la taille et la diversité de votre ensemble de données, ce qui donne des modèles plus précis et plus robustes. Il convient de prêter attention aux problèmes de compatibilité et de qualité des données.
  • Utilisez le crowdsourcing pour collecter rapidement de grandes quantités de données étiquetées à faible coût. Les problèmes de contrôle de la qualité et d’écart nécessitent une attention particulière.
  • Gardez un œil sur les API de données de diverses entreprises et organisations pour accéder à leurs données de manière similaire au code.
  • Consultez les benchmarks disponibles qui fournissent des ensembles de données standardisés et des mesures d’évaluation pour comparer les performances de différents modèles pour le même problème.

 4. Meilleures pratiques pour la création d'ensembles de données

4.1 Définir le problème et les objectifs 

Avant de collecter des données, soyez clair sur la variable cible que vous souhaitez prédire, la portée du problème que vous souhaitez résoudre et l’utilisation prévue de l’ensemble de données.

Clarifier le problème et l’objectif permet de cibler la collecte de données pertinentes.Évitez de perdre du temps et des ressources sur des données non pertinentes ou bruyantes tout en aidant à comprendre les hypothèses et les limites de l'ensemble de données.

4.2 Collecte d'ensembles de données diversifiés et représentatifs 

La collecte de données provenant de différentes sources et domaines garantit que l’ensemble de données est représentatif des problèmes du monde réel.Cela comprend la collecte de données provenant de différents lieux, données démographiques et périodes, en veillant à ce que l’ensemble de données ne soit pas biaisé en faveur d’un groupe ou d’un secteur particulier.

De plus, assurez-vous que les données ne contiennent aucune variable de confusion, qui sont des variables tierces non mesurées qui affectent la cause hypothétique et l'effet hypothétique, influençant ainsi les résultats.

4.3 Étiquetez soigneusement vos données 

Utilisez des étiquettes claires qui reflètent clairement la vérité fondamentale pour annoter les données et utilisez plusieurs annotateurs ou le crowdsourcing pour réduire l’impact des préjugés personnels sur les données et améliorer la qualité et la fiabilité des étiquettes. Il est recommandé de contrôler la version de vos données pour faciliter le suivi, le partage et la reproduction du processus de formation et d'évaluation.

Conseils utiles :

Si l'ensemble de données ne contient que les étiquettes correctes pour 80%, alors même le meilleur modèle ne sera pas plus précis que 80% dans la plupart des cas.

4.4 Assurer la qualité et l'intégrité des données 

La qualité des données fait référence à l’exactitude, à l’exhaustivité et à la cohérence des données.Des techniques telles que le nettoyage des données, la détection des valeurs aberrantes et l’interpolation des valeurs manquantes peuvent contribuer à améliorer la qualité de l’ensemble de données. De plus, vous devez vous assurer que les données sont dans un format facile à comprendre et à traiter pour les algorithmes d’apprentissage automatique.

4.5 Garantir la confidentialité et la sécurité des données

Pour protéger la confidentialité, il est nécessaire de garantir que la collecte et le stockage des données sont sécurisés et que toutes les informations sensibles sont anonymisées ou cryptées. En outre, pensez à utiliser le chiffrement pour protéger les données pendant qu’elles sont en transit et au repos.

Conseils utiles :

Faites attention aux spécifications d’utilisation des données de vérification pour vous assurer qu’elles sont conformes aux lois et réglementations.

5. Évaluation de l'ensemble de données

Vérifiez si l'ensemble de données répond suffisamment aux 5 critères suivants :

  • Taille des données :En règle générale, plus il y a de données, mieux c'est.
  • Distribution des données:Assurez-vous que l’ensemble de données est équilibré et représentatif.
  • Qualité des données :Des données propres, cohérentes et sans erreur sont essentielles
  • Complexité des données :Assurez-vous que les données ne sont pas trop complexes.
  • Pertinence des données :Les données doivent être pertinentes par rapport au problème.

Ce qui précède est le contenu complet du guide de sélection et de création de jeux de données. Le choix d’un ensemble de données approprié est la clé de l’apprentissage automatique. J’espère que ce guide pourra vous aider à choisir ou à créer un ensemble de données de haute qualité et à former des modèles précis et robustes !

  Téléchargez des ensembles de données publiques massifs en ligne

À ce jour, le site Web officiel d'HyperAI a lancé plus de 1 200 ensembles de données publiques de haute qualité, effectué près de 500 000 téléchargements et contribué à plus de 2 000 To de trafic, abaissant considérablement le seuil d'accès aux ensembles de données publiques de haute qualité au pays et à l'étranger.

Visitez le lien suivant pour rechercher et télécharger l’ensemble de données dont vous avez besoin immédiatement et commencer votre parcours de formation de modèle !

Visitez le site officiel : https://orion.hyper.ai/datasets

Cet article a été publié pour la première fois sur la plateforme publique HyperAI WeChat~