HyperAIHyperAI
il y a 2 mois

Sur l'entraînement Mixup : Amélioration de la calibration et de l'incertitude prédictive pour les réseaux de neurones profonds

Sunil Thulasidasan; Gopinath Chennupati; Jeff Bilmes; Tanmoy Bhattacharya; Sarah Michalak
Sur l'entraînement Mixup : Amélioration de la calibration et de l'incertitude prédictive pour les réseaux de neurones profonds
Résumé

Mixup~\cite{zhang2017mixup} est une méthode récemment proposée pour l'entraînement des réseaux de neurones profonds, où des échantillons supplémentaires sont générés au cours de l'entraînement en combinant convexement des paires d'images aléatoires et leurs étiquettes associées. Bien que simple à mettre en œuvre, elle s'est avérée être une méthode surprenamment efficace d'augmentation de données pour la classification d'images : les DNN (Deep Neural Networks) entraînés avec Mixup montrent des gains notables dans les performances de classification sur plusieurs benchmarks de classification d'images. Dans ce travail, nous abordons un aspect jusqu'alors non exploré de l'entraînement avec Mixup -- le calibrage et l'incertitude prédictive des modèles entraînés avec Mixup. Nous constatons que les DNNs entraînés avec Mixup sont significativement mieux calibrés -- c'est-à-dire que les scores softmax prédits sont de bien meilleurs indicateurs de la vraisemblance réelle d'une prédiction correcte -- que les DNNs entraînés selon la méthode traditionnelle. Nous menons des expériences sur plusieurs architectures et jeux de données de classification d'images, y compris des jeux de données à grande échelle comme ImageNet, et trouvons que cela est le cas. De plus, nous observons que le simple mélange des caractéristiques ne produit pas le même avantage en termes de calibrage et que le lissage des étiquettes lors de l'entraînement avec Mixup joue un rôle significatif dans l'amélioration du calibrage. Enfin, nous constatons également que les DNNs entraînés avec Mixup sont moins sujets à des prédictions excessivement confiantes sur des données hors distribution et bruitées aléatoirement. Nous concluons que la surestimation typique observée dans les réseaux de neurones, même sur des données en distribution, est probablement une conséquence de l'entraînement avec des étiquettes rigides, suggérant qu'il convient d'utiliser Mixup pour les tâches de classification où l'incertitude prédictive est une préoccupation importante.

Sur l'entraînement Mixup : Amélioration de la calibration et de l'incertitude prédictive pour les réseaux de neurones profonds | Articles de recherche récents | HyperAI