Découverte de noyaux pour la classification avec des algorithmes évolutionnaires multi-objectifs

Un coreset est un sous-ensemble de l'ensemble d'entraînement, à partir duquel un algorithme d'apprentissage automatique obtient des performances similaires à celles qu'il livrerait s'il était entraîné sur l'ensemble des données originales. La découverte de coresets est une ligne de recherche active et ouverte car elle permet d'améliorer la vitesse d'entraînement des algorithmes et peut aider à la compréhension humaine des résultats. S'appuyant sur les travaux précédents, une nouvelle approche est présentée : les coresets candidats sont optimisés itérativement en ajoutant et en supprimant des échantillons. Étant donné qu'il existe un compromis évident entre la limitation de la taille de l'entraînement et la qualité des résultats, un algorithme évolutionniste multi-objectif est utilisé pour minimiser simultanément le nombre de points dans l'ensemble et l'erreur de classification. Les résultats expérimentaux sur des benchmarks non triviaux montrent que l'approche proposée permet d'obtenir des résultats qui permettent à un classifieur d'avoir une erreur plus faible et une meilleure capacité à généraliser sur des données inconnues par rapport aux techniques actuelles de découverte de coresets.