Sélection Des Fonctionnalités
La sélection des fonctionnalités est le processus d'isolement du sous-ensemble de fonctionnalités le plus cohérent, non redondant et pertinent pour la création de modèles. À mesure que les ensembles de données continuent de croître en taille et en variété, il est important de réduire méthodiquement la taille de l’ensemble de données. L’objectif principal de la sélection de fonctionnalités est d’améliorer les performances des modèles prédictifs et de réduire le coût de calcul de la modélisation.
Exemple d'utilisation de la sélection de fonctionnalités
La sélection de caractéristiques est une technique de prétraitement efficace pour diverses applications pratiques, telles que la classification de textes, la télédétection, la récupération d'images, l'analyse de puces à ADN, la spectrométrie de masse, l'analyse de séquences, etc.
Voici quelques exemples concrets de sélection de fonctionnalités :
- Analyse d'images mammographiques
- Modélisation du comportement criminel
- Analyse des données génomiques
- Surveillance de la plateforme
- Évaluation de l'intégrité mécanique
- Regroupement de texte
- Classification d'images hyperspectrales
- Analyse de séquence
Importance de la sélection des fonctionnalités
Au cours du processus d’apprentissage automatique, l’utilisation de la sélection de fonctionnalités peut rendre le processus plus précis. Il améliore également le pouvoir prédictif de l’algorithme en sélectionnant les variables les plus critiques et en éliminant les variables redondantes et non pertinentes. C’est pourquoi la sélection des fonctionnalités est importante.
Les trois principaux avantages de la sélection des fonctionnalités sont :
- Réduire le surapprentissage
Des données redondantes signifient moins de risques de prendre des décisions basées sur le bruit. - Améliorer la précision
Moins de données trompeuses signifient une plus grande précision de modélisation. - Réduire le temps de formation
Moins de données signifie des algorithmes plus rapides.
Méthodes de sélection des fonctionnalités
Les algorithmes de sélection de fonctionnalités sont divisés en algorithmes supervisés et non supervisés : les algorithmes supervisés peuvent être utilisés pour les données étiquetées et les algorithmes non supervisés peuvent être utilisés pour les données non étiquetées. Les techniques non supervisées sont classées comme méthodes de filtrage, méthodes d'encapsulation, méthodes d'intégration ou méthodes hybrides :
- Méthode de filtrage:Les méthodes de filtrage sélectionnent les fonctionnalités en fonction des statistiques plutôt que des performances de validation croisée de la sélection des fonctionnalités. Appliquez la métrique sélectionnée pour identifier les attributs non pertinents et effectuer une sélection de fonctionnalités récursive. Les méthodes de filtrage peuvent être univariées, où une liste ordonnée de fonctionnalités est construite pour informer la sélection finale d'un sous-ensemble de fonctionnalités, ou multivariées, qui évaluent la pertinence de l'ensemble des fonctionnalités, en identifiant les fonctionnalités redondantes et non pertinentes.
- Méthode d'emballage:Les méthodes de sélection de fonctionnalités wrapper traitent la sélection d'un ensemble de fonctionnalités comme un problème de recherche, en évaluant la qualité des fonctionnalités en préparant, en évaluant et en comparant des combinaisons de fonctionnalités avec d'autres combinaisons de fonctionnalités. Cette méthode permet de détecter d’éventuelles interactions entre variables. Les méthodes wrapper se concentrent sur un sous-ensemble de fonctionnalités qui contribueront à améliorer la qualité des résultats de l’algorithme de clustering utilisé pour la sélection. Les exemples populaires incluent la sélection de fonctionnalités Boruta et la sélection de fonctionnalités Forward.
- Méthode intégrée:Les méthodes de sélection de fonctionnalités intégrées intègrent des algorithmes d'apprentissage automatique de sélection de fonctionnalités dans le cadre de l'algorithme d'apprentissage, où la classification et la sélection de fonctionnalités sont effectuées simultanément. Extrayez soigneusement les fonctionnalités qui contribuent le plus à chaque itération du processus de formation du modèle. La sélection de fonctionnalités de forêt aléatoire, la sélection de fonctionnalités d'arbre de décision et la sélection de fonctionnalités LASSO sont des méthodes d'intégration courantes.
Références
【1】https://www.heavy.ai/technical-glossary/feature-selection