HyperAIHyperAI
il y a 8 jours

Knockoffs-SPR : Sélection d'échantillons propres dans l'apprentissage avec des étiquettes bruitées

Yikai Wang, Yanwei Fu, Xinwei Sun
Knockoffs-SPR : Sélection d'échantillons propres dans l'apprentissage avec des étiquettes bruitées
Résumé

Un ensemble d’apprentissage bruyant entraîne généralement une dégradation de la généralisation et de la robustesse des réseaux de neurones. Dans cet article, nous proposons un nouveau cadre théoriquement garanti pour la sélection d’échantillons propres dans le cadre de l’apprentissage avec des étiquettes bruyantes. Plus précisément, nous introduisons tout d’abord une méthode de régression pénalisée évolutif (Scalable Penalized Regression, SPR), permettant de modéliser la relation linéaire entre les caractéristiques du réseau et les étiquettes one-hot. Dans SPR, les données propres sont identifiées par les paramètres de décalage nul obtenus à partir du modèle de régression. Nous montrons théoriquement que SPR permet de récupérer les données propres sous certaines conditions. Toutefois, dans des scénarios généraux, ces conditions peuvent ne plus être satisfaites, entraînant ainsi une sélection erronée de certaines données bruyantes comme étant propres. Pour résoudre ce problème, nous proposons une méthode adaptative aux données pour la régression pénalisée évolutif avec filtres Knockoff (Knockoffs-SPR), dont nous démontrons qu’elle permet de contrôler le taux de sélection erronée (False-Selection-Rate, FSR) dans les échantillons sélectionnés comme propres. Afin d’améliorer l’efficacité, nous présentons également un algorithme par découpage, qui divise l’ensemble d’apprentissage complet en petits sous-ensembles pouvant être traités en parallèle, rendant ainsi le cadre évolutif pour de grands jeux de données. Bien que Knockoffs-SPR puisse être considéré comme un module de sélection d’échantillons intégré à une chaîne d’apprentissage supervisé classique, nous l’associons également à un algorithme semi-supervisé afin d’exploiter le potentiel des données bruyantes comme données non étiquetées. Les résultats expérimentaux sur plusieurs jeux de données de référence ainsi que sur des jeux de données réels bruyants confirment l’efficacité de notre cadre et valident les résultats théoriques de Knockoffs-SPR. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/Yikai-Wang/Knockoffs-SPR.

Knockoffs-SPR : Sélection d'échantillons propres dans l'apprentissage avec des étiquettes bruitées | Articles de recherche récents | HyperAI