Vous Ne Savez Pas Par Où Commencer Vos Recherches Universitaires ? 27 Pièges Du Machine Learning À Éviter Pour Que Votre Article Soit Publié Sans Détours

Cet article a été publié pour la première fois sur le compte officiel de WeChat : HyperAI
Contenu en un coup d'œil :Si vous êtes nouveau dans le domaine de l’apprentissage automatique et que vous espérez mener des recherches universitaires dans ce domaine à l’avenir, ne manquez pas ce « guide pour éviter les pièges » conçu pour vous.
Mots-clés:Norme de recherche sur l'apprentissage automatique
Comment un novice en apprentissage automatique peut-il éviter les pièges et publier son article en douceur ?
Le professeur associé Michael A. Lones de l'École de mathématiques et d'informatique de l'Université Heriot-Watt en Écosse a publié un article en 2021 – « Comment éviter les pièges de l'apprentissage automatique : un guide pour les chercheurs universitaires »,Ceci est discuté en détail.
Lire l'article complet (V2) :

Dans cet article, l'auteur part du point de vue de la recherche universitaire, combine sa propre expérience de recherche scientifique et son expérience d'enseignement, et inclut le lien complet de l'utilisation de la technologie d'apprentissage automatique.Se produisant fréquemment, nécessitant une attention particulière 5 problèmes majeurs et solutions correspondantes proposées.
Personnes concernées :
Les étudiants ou les universitaires qui sont relativement nouveaux dans le domaine du ML et qui n'ont que des connaissances de base en ML
Conseils utiles :Cet article se concentre sur des questions d’intérêt commun au sein de la communauté universitaire, telles que la manière d’évaluer et de comparer rigoureusement les modèles afin que les articles puissent être publiés avec succès.
Ensuite, nous suivrons le processus complet de formation du modèle ML et le décrirons par étapes.
Phase 1 : Avant la création du modèle
De nombreux étudiants sont impatients de former et d'évaluer le modèle dès le début, ignorant souvent les « devoirs » les plus importants.Ces « devoirs » comprennent :
* Quel est l’objectif du projet ?
* Quel type de données est nécessaire pour atteindre cet objectif ?
* Existe-t-il des limites aux données ? Si oui, comment les résoudre ?
* Comment progresse la R&D dans ce domaine et qu'est-ce qui a été fait
Si ces travaux préliminaires ne sont pas bien réalisés et que l’on se précipite pour exécuter le modèle, il est probable qu’au final, le modèle ne sera pas en mesure de prouver les conclusions attendues et que les travaux de recherche scientifique ne seront pas publiés.
1.1 Comprendre et analyser les données
Les sources de données sont fiables, les méthodes de collecte de données sont scientifiques et la qualité des données est élevée, ce qui sera très bénéfique pour la publication des articles. Il est important de noter ici queUn ensemble de données largement utilisé n’est pas nécessairement de bonne qualité, mais peut également l’être parce qu’il est facilement accessible.Avant de sélectionner les données, une analyse exploratoire des données est effectuée pour éliminer les limitations des données.
1.2 Ne regardez pas toutes les données, séparez les données de test avant de commencer
La fuite d’informations de l’ensemble de tests vers le processus de formation est une raison courante pour laquelle les modèles d’apprentissage automatique ne parviennent pas à se généraliser.À cette fin, lors de la phase d’analyse exploratoire des données, n’examinez pas les données de test trop attentivement pour éviter de faire intentionnellement ou non des hypothèses non testables qui limitent la généralisabilité du modèle.
Conseils utiles :Il est acceptable de faire des hypothèses, mais ces hypothèses ne doivent être intégrées que dans la formation du modèle, et non dans les tests.
1.3 Préparer suffisamment de données
Des données insuffisantes peuvent réduire la généralisation et la polyvalence du modèle, qui dépend du rapport signal/bruit (SNR) de l'ensemble de données. Dans le domaine de la recherche en apprentissage automatique,Un problème courant est le volume de données insuffisant. Dans ce cas, la disponibilité des données existantes peut être améliorée grâce à la validation croisée, à l’amélioration des données et à d’autres techniques.
1.4 Rechercher activement des conseils auprès d’experts dans le domaine
Les experts dans le domaine possèdent une riche expérience en recherche scientifique.Cela peut nous aider à identifier les problèmes à résoudre, les ensembles de fonctionnalités et les modèles d’apprentissage automatique les plus appropriés, et à guider la publication de nos résultats de recherche.Il obtient deux fois plus de résultats avec la moitié des efforts.
1.5 Faites un bon travail de recherche documentaire
Le progrès scientifique est un processus itératif, chaque étude fournissant des informations qui guident la suivante.En ignorant les recherches antérieures, vous risquez de passer à côté d’informations précieuses.Au lieu de vous creuser la tête pour expliquer pourquoi vous étudiez le même sujet et pourquoi vous ne commencez pas de recherche en vous basant sur les résultats existants lorsque vous rédigez votre article, il est préférable de faire une revue de la littérature avant de commencer le travail.
1.6 Pensez au déploiement du modèle à l'avance
Si l’objectif ultime de la recherche universitaire est de créer un modèle d’apprentissage automatique qui peut être déployé dans le monde réel,Vous devez prendre en compte les problèmes de déploiement le plus tôt possible.Tels que l'impact des restrictions environnementales sur la complexité du modèle, s'il existe des limites de temps, comment s'intégrer au système logiciel, etc.
Phase 2 : Créer des modèles fiables
Il est important de créer des modèles de manière organisée afin que nous puissions utiliser les données correctement et faire des choix de modèles bien pensés.
2.1 Les données de test ne peuvent pas être utilisées dans la formation du modèle
Une fois que les données de test sont impliquées dans la configuration, la formation ou la sélection du modèle, cela affectera considérablement la fiabilité et la polyvalence des données. C’est également une raison courante pour laquelle les modèles d’apprentissage automatique publiés ne sont souvent pas applicables aux données du monde réel.
❎ Exemples d’erreurs (à éviter) :
* Lors de la préparation des données, utilisez les informations de moyenne et de plage des variables dans l'ensemble de données pour la mise à l'échelle des variables (l'approche correcte consiste à ne le faire que dans les données d'entraînement)
* Effectuer la sélection des fonctionnalités avant de fractionner les données
* Évaluer la généralisabilité de plusieurs modèles en utilisant les mêmes données de test
* Appliquer l'augmentation des données avant de diviser les données de test
Afin d’éviter les problèmes ci-dessus,La meilleure façon est de diviser un sous-ensemble de données avant le début du projet.Et à la fin du projet, seul cet ensemble de tests indépendant est utilisé pour tester la généralisabilité d'un modèle unique.
Conseils utiles :Les données de séries chronologiques doivent être traitées avec un soin particulier, car des divisions aléatoires des données peuvent facilement entraîner des fuites et un surajustement.
2.2 Essayez plusieurs modèles différents
Il n’existe pas de modèle universel d’apprentissage automatique au monde. Nos travaux de recherche visent à trouver un modèle d’apprentissage automatique adapté à des problèmes spécifiques. Bibliothèques d'apprentissage automatique modernes telles que Python, R, Julia, etc.Avec seulement quelques modifications mineures au code, vous pouvez essayer plusieurs modèles pour trouver le plus efficace.
Conseils utiles :
* N'utilisez pas de modèles inappropriés et utilisez des ensembles de validation au lieu d'ensembles de test pour évaluer les modèles
* Lors de la comparaison de modèles, optimisez les hyperparamètres du modèle et effectuez plusieurs évaluations, puis corrigez les comparaisons multiples lors de la publication des résultats.
2.3 N’utilisez pas de modèles inappropriés
Les bibliothèques d’apprentissage automatique modernes ont abaissé le seuil de mise en œuvre de l’apprentissage automatique, mais elles nous permettent également de choisir facilement des modèles inappropriés, comme l’application d’un modèle adapté aux caractéristiques catégorielles à un ensemble de données contenant des caractéristiques numériques, ou l’utilisation d’un modèle de classification lorsqu’un modèle de régression doit être utilisé.Lors du choix d’un modèle, essayez de choisir celui qui correspond le mieux possible au cas d’utilisation.
2.4 L’apprentissage profond n’est parfois pas la solution optimale
Bien que les réseaux neuronaux profonds (DNN) soient performants dans certaines tâches,Mais cela ne signifie pas que le DNN est adapté à tous les problèmes.Surtout lorsque les données sont limitées, que le modèle sous-jacent est assez simple ou que le modèle doit être interprétable, le DNN peut ne pas fonctionner aussi bien que certains modèles d'apprentissage automatique à l'ancienne, tels que la forêt aléatoire et le SVM.
2.5 Optimisation des hyperparamètres du modèle
Les hyperparamètres ont un impact énorme sur les performances d’un modèle et doivent souvent être adaptés à l’ensemble de données spécifique. Tester sans but précis n’est peut-être pas la meilleure façon de trouver les bons hyperparamètres.Il est recommandé d’utiliser des stratégies d’optimisation des hyperparamètres telles que la recherche aléatoire et la recherche par grille.
Conseils utiles :Pour les modèles comportant un grand nombre d’hyperparamètres ou des coûts de formation élevés, ces stratégies ne sont pas applicables. Des technologies telles qu’AutoML et les pipelines d’exploration de données peuvent être utilisées pour optimiser la sélection des modèles et de leurs hyperparamètres.
2.6 Soyez particulièrement prudent lors de l'optimisation des hyperparamètres et de la sélection des fonctionnalités
L’optimisation des hyperparamètres et la sélection des fonctionnalités font partie de la formation du modèle. N'effectuez pas de sélection de fonctionnalités sur l'ensemble de données avant le début de la formation du modèle, car cela entraînerait une fuite d'informations de l'ensemble de test vers le processus de formation. Optimiser les hyperparamètres ou les caractéristiques du modèle,Il est préférable d’utiliser exactement les mêmes données que celles que vous avez utilisées pour entraîner le modèle, et une technique courante est la validation croisée imbriquée (également appelée double validation croisée).
Étape 3 : Évaluer le modèle de manière robuste
L’évaluation inappropriée des modèles est très courante et entrave les progrès de la recherche universitaire. donc,Il convient de réfléchir attentivement à la manière dont les données sont utilisées dans les expériences, à la manière dont les performances réelles du modèle sont mesurées et à la manière dont elles sont rapportées.
3.1 Utiliser une suite de tests appropriée
Utilisez un ensemble de tests pour mesurer la généralisabilité de votre modèle d’apprentissage automatique et pour vous assurer que les données de l’ensemble de tests sont appropriées.L'ensemble de test ne doit pas chevaucher l'ensemble d'entraînement et doit couvrir une gamme plus large de conditions. Par exemple, pour un ensemble de données photographiques d'un objet, si l'ensemble d'entraînement et l'ensemble de test sont collectés à l'extérieur par une journée ensoleillée, l'ensemble de test n'est pas indépendant car il ne capture pas une gamme plus large de conditions météorologiques.
3.2 Ne pas effectuer d'augmentation des données avant de les fractionner
L’augmentation des données permet d’équilibrer l’ensemble des données et d’améliorer la généralité et la robustesse des modèles d’apprentissage automatique.Il convient de noter que l’augmentation des données ne doit être appliquée qu’à l’ensemble d’entraînement et non à l’ensemble de test pour éviter le surajustement.
3.3 Utilisation d'un ensemble de validation
Un ensemble de validation distinct est utilisé pour mesurer les performances du modèle, qui contient un ensemble d'échantillons qui ne sont pas directement utilisés pour la formation mais qui sont utilisés pour guider la formation. Un autre avantage de l’ensemble de validation est qu’il permet un arrêt anticipé.
3.4 Évaluer le modèle plusieurs fois
Une seule évaluation d’un modèle n’est pas fiable.peut sous-estimer ou surestimer la performance réelle du modèle,Pour ce faire, le modèle doit être évalué plusieurs fois, ce qui implique généralement de former le modèle plusieurs fois à l’aide de différents sous-ensembles de données de formation. La validation croisée est une méthode particulièrement populaire avec de nombreux types, tels que la validation croisée décuplée.
Conseils utiles :Lors de la présentation des moyennes et des écarts types de plusieurs évaluations, il est recommandé de conserver un seul score pour les comparaisons ultérieures de modèles à l’aide de tests statistiques.
3.5 Réserver certaines données pour évaluer l'instance finale du modèle
La meilleure façon d’évaluer de manière fiable la généralisabilité des instances de modèles,Peut-être qu'il suffit d'utiliser un autre ensemble de tests.Par conséquent, si la quantité de données est suffisamment importante, il est préférable d’en réserver une partie et de l’utiliser pour effectuer une évaluation impartiale sur l’instance de modèle sélectionnée finale.
3.6 N’utilisez pas la précision pour les ensembles de données déséquilibrés
Soyez prudent lorsque vous choisissez des mesures pour évaluer les modèles d’apprentissage automatique. Par exemple, la mesure la plus couramment utilisée pour les modèles de classification est la précision, qui fonctionne bien si l’ensemble de données est équilibré (chaque catégorie a un nombre similaire de représentants d’échantillons dans l’ensemble de données). Cependant, la précision peut être une mesure très trompeuse si l’ensemble de données est déséquilibré.
dans ce cas,Il est préférable d’utiliser des indicateurs insensibles au déséquilibre de la taille des classes, tels que le score F1, le coefficient Kappa de Cohen (κ) ou le coefficient de corrélation de Matthews (MCC).
Étape 4 : Comparer équitablement les modèles
La comparaison des modèles est fondamentale pour la recherche universitaire, mais si les comparaisons sont faites de manière injuste et publiées, elles induiront en erreur d’autres chercheurs. donc,Vous devez vous assurer d’évaluer différents modèles dans les mêmes conditions et d’utiliser les tests statistiques de manière appropriée.
4.1 Pour les modèles, plus le nombre est élevé, meilleures sont les performances.
Cette affirmation apparaît souvent dans le journal : « La précision de l'étude précédente était de 94%, et la précision de ce modèle est aussi élevée que 95%, donc c'est mieux. » Diverses raisons indiquent queUn nombre plus élevé n’équivaut pas à un meilleur modèle,Si les modèles sont formés ou évalués sur différentes partitions du même ensemble de données, la différence de performances peut être faible ; si des ensembles de données complètement différents sont utilisés, la différence de performances peut être énorme. Le fait de ne pas effectuer la même quantité d’optimisation des hyperparamètres peut également contribuer à des différences dans les performances du modèle.
Par conséquent, afin de comparer scientifiquement les performances des deux modèles,Les modèles doivent être optimisés au même degré et évalués plusieurs fois, avec des tests statistiques utilisés pour déterminer si les différences de performances sont significatives.
4.2 Comparaison de modèles à l'aide de tests statistiques
Il est recommandé d’utiliser des tests statistiques pour comparer les différences de performances entre deux modèles. D'une manière générale, les tests de comparaison de modèles d'apprentissage automatique se répartissent en deux catégories :La première catégorie est utilisée pour comparer des instances de modèles similaires.Par exemple, lors de la comparaison de deux arbres de décision entraînés, le test de McNemar peut être utilisé ;La deuxième catégorie convient à des comparaisons de modèles plus générales.Par exemple, pour comparer quel arbre de décision ou quel réseau neuronal est le plus adapté, le test U de Mann-Whitney est utilisé.
4.3 Correction pour les comparaisons multiples
Comparer plus de deux modèles à l’aide de tests statistiques est quelque peu compliqué. Les tests par paires multiples sont similaires à l’utilisation répétée de l’ensemble de tests, ce qui peut conduire à des interprétations trop optimistes de la signification.
Il est recommandé d’utiliser une correction de test multiple, telle que la correction de Bonferroni, pour résoudre ce problème.
4.4 Ne faites pas trop confiance aux benchmarks communautaires
Pour les problèmes dans certains domaines, de nombreuses personnes choisiront des ensembles de données de référence pour évaluer les performances des nouveaux modèles d'apprentissage automatique, car tout le monde utilise les mêmes données pour former et tester les modèles, de sorte que la comparaison sera plus intuitive. Cette approche présente quelques inconvénients majeurs.
Premièrement, si l’accès à l’ensemble de tests est illimité, rien ne garantit que d’autres ne l’ont pas utilisé dans le cadre de leur processus de formation, ce qui pourrait conduire à un optimisme excessif dans les résultats. De plus, même si chaque personne utilisant les données n’a utilisé l’ensemble de tests qu’une seule fois, dans l’ensemble, l’ensemble de tests a été utilisé plusieurs fois par la communauté, ce qui peut également conduire à un surajustement du modèle.À cette fin, les résultats des ensembles de données de référence doivent être interprétés avec prudence et des jugements raisonnables doivent être portés sur les améliorations de performance.
Phase 5 : Rapport des résultats
La recherche universitaire doit contribuer à la connaissance.Cela nécessite de rendre compte de l’état d’avancement général des travaux de recherche, notamment des efforts qui ont été couronnés de succès et de ceux qui ne l’ont pas été.L’apprentissage automatique est souvent associé à des compromis, et il est rare qu’un modèle soit meilleur qu’un autre dans tous les aspects. Il faut donc en tenir compte lors de la communication des résultats.
5.1 Les rapports doivent être transparents
Partagez tous les travaux de recherche de manière transparente.Cela permet à d’autres de répéter plus facilement l’expérience et aux gens de comparer les modèles. Documenter clairement vos expériences et écrire du code propre sera bénéfique pour vous-même et pour les autres. La communauté de l’apprentissage automatique se concentre de plus en plus sur la reproductibilité des expériences, et une documentation inadéquate des flux de travail peut affecter les publications ultérieures.
5.2 Rapports sur les performances de plusieurs manières
Lors de l'évaluation des performances du modèle,Une approche plus rigoureuse consiste à utiliser plusieurs ensembles de données.Cela peut aider à surmonter les lacunes associées à un seul ensemble de données et donner une image complète des performances du modèle. Il est recommandé de signaler plusieurs mesures pour chaque ensemble de données, car différentes mesures peuvent afficher des résultats différents et augmenter la transparence de votre travail.
5.3 Résumer uniquement les données
Ne présentez pas de conclusions invalides qui pourraient induire en erreur d’autres chercheurs. Une erreur courante consiste à publier des généralisations qui ne sont pas étayées par les données utilisées pour former et évaluer le modèle. Ce n’est pas parce qu’un modèle fonctionne bien sur un ensemble de données qu’il fonctionnera nécessairement bien sur d’autres ensembles de données. Bien que des informations fiables puissent être obtenues en utilisant plusieurs ensembles de données, il existe toujours des limites à ce qui peut être étudié et déduit des expériences.N’exagérez pas les résultats, soyez conscient des limites.
5.4 Signaler les différences significatives avec prudence
Les tests statistiques évoqués ci-dessus peuvent aider à tester les différences entre les modèles. Cependant, les tests statistiques ne sont pas parfaits et peuvent sous-estimer ou surestimer la signification du modèle, ce qui entraîne des faux positifs ou des faux négatifs. De plus, de plus en plus de statisticiens préconisent d’abandonner l’utilisation de seuils de confiance et de rapporter directement les valeurs p pour déterminer la signification du modèle.
Outre la signification statistique, une autre question à considérer est de savoir si la différence entre les deux modèles est réellement importante. Car tant que l’échantillon est suffisant, des différences significatives peuvent toujours être trouvées, même si la différence de performance réelle est minime. Par conséquent, lorsque nous jugeons l’importance, nous pouvons mesurer la taille de l’effet. Les méthodes incluent la statistique d de Cohen (plus courante), Kolmogorov Smirnov (meilleur effet, recommandé), etc.
5.5 Focus sur le principe de fonctionnement du modèle
Le modèle formé contient de nombreuses informations valides.Cependant, de nombreux auteurs ne rapportent que les indicateurs de performance du modèle sans expliquer les principes du modèle.Le but de la recherche n’est pas d’atteindre une précision légèrement supérieure à celle des autres, mais de résumer les connaissances et de les partager avec la communauté de recherche, augmentant ainsi la possibilité de publier les résultats des travaux. Par exemple, pour les modèles simples tels que les arbres de décision, fournissez une visualisation du modèle ; pour les modèles complexes tels que les réseaux neuronaux profonds, envisagez d'utiliser la technologie XAI (intelligence artificielle explicable) pour extraire les informations pertinentes.
Ce qui précède est le contenu complet du « Guide d’évitement ». J’espère que chaque étudiant qui débute dans l’apprentissage automatique en tirera des leçons.Vous pouvez tous conserver ce livre au trésor, le lire souvent et apprendre de nouvelles choses, afin de pouvoir facilement trouver votre direction de recherche, choisir un bon sujet et publier votre article le plus rapidement possible !
Dans l'attente de vos bonnes nouvelles~
Liens de référence :[Comment éviter les pièges de l'apprentissage automatique : un guide pour les chercheurs universitaires]
-- sur--