MixMatch : Une approche holistique de l'apprentissage semi-supervisé

L'apprentissage semi-supervisé s'est avéré être un paradigme puissant pour exploiter les données non étiquetées afin de réduire la dépendance aux grands ensembles de données étiquetées. Dans ce travail, nous unifions les approches actuelles dominantes en apprentissage semi-supervisé pour produire un nouvel algorithme, MixMatch, qui fonctionne en devinant des étiquettes à faible entropie pour des exemples non étiquetés augmentés par des techniques de data augmentation et en mélangeant les données étiquetées et non étiquetées à l'aide de MixUp. Nous montrons que MixMatch obtient des résultats d'état de l'art avec une marge importante sur de nombreux jeux de données et différentes quantités de données étiquetées. Par exemple, sur CIFAR-10 avec 250 étiquettes, nous réduisons le taux d'erreur par un facteur de 4 (de 38% à 11%) et par un facteur de 2 sur STL-10. Nous démontrons également comment MixMatch peut contribuer à atteindre un compromis beaucoup plus favorable entre précision et confidentialité pour la confidentialité différentielle. Enfin, nous menons une étude d'ablation pour isoler les composants les plus importants du succès de MixMatch.