Amélioration de l’apprentissage des représentations visuelles discriminatives par un mixup indépendant du scénario

Le mixup est une technique bien connue d’augmentation dépendante des données pour les réseaux de neurones profonds (DNN), composée de deux sous-tâches : la génération du mixup et la classification. Toutefois, la méthode dominante récente d’apprentissage en ligne restreint le mixup à l’apprentissage supervisé (SL), et l’objectif de la sous-tâche de génération se limite à des paires d’échantillons sélectionnées plutôt que de couvrir l’ensemble de la variété des données, ce qui peut conduire à des solutions triviales. Pour surmonter ces limitations, nous étudions de manière exhaustive l’objectif de la génération du mixup et proposons \textbf{S}cénario-\textbf{A}gnostique \textbf{Mix}up (SAMix), applicable aussi bien aux scénarios d’apprentissage supervisé (SL) qu’à ceux d’apprentissage auto-supervisé (SSL). Plus précisément, nous formulons et validons l’hypothèse selon laquelle l’objectif de génération du mixup consiste à optimiser la régularité locale entre deux classes mélangées, sous la contrainte d’une discrimination globale par rapport aux autres classes. À cet effet, nous proposons une fonction de perte de mixup équilibrée en $η$, permettant un apprentissage complémentaire des deux objectifs. Par ailleurs, nous concevons un sous-réseau de génération sans étiquette, qui fournit efficacement des échantillons de mixup non triviaux et améliore les capacités de transfert. En outre, afin de réduire le coût computationnel de l’apprentissage en ligne, nous introduisons une version pré-entraînée, SAMix$^\mathcal{P}$, offrant une meilleure efficacité et généralisabilité. Des expériences étendues sur neuf benchmarks d’apprentissage supervisé et auto-supervisé démontrent de manière cohérente l’efficacité et la polyvalence supérieures de SAMix par rapport aux méthodes existantes.