Entraînement à faible consommation de données de CNNs et de Transformers à l’aide de Coresets : une perspective de stabilité

La sélection de coreset constitue l’une des méthodes les plus efficaces pour réduire le temps d’entraînement des réseaux de neurones convolutifs (CNN), mais peu est connu sur le comportement des modèles résultants face à des variations de taille de coreset, ainsi qu’en fonction du choix des jeux de données et des architectures modèles. En outre, compte tenu du recent déplacement paradigmique vers les modèles basés sur les transformers, il reste une question ouverte quant à l’impact de la sélection de coreset sur leurs performances. Plusieurs questions intrigantes similaires doivent être résolues afin d’assurer une adoption large des méthodes de sélection de coreset, et ce papier vise à répondre à certaines d’entre elles. Nous proposons un cadre systématique d’évaluation et menons une comparaison rigoureuse de différentes méthodes de sélection de coreset sur des CNN et des transformers. Nos résultats révèlent que, dans certaines conditions, la sélection aléatoire de sous-ensembles s’avère plus robuste et plus stable que les méthodes de pointe actuelles. Nous démontrons que le concept classique d’échantillonnage uniforme des sous-ensembles à travers les différentes classes des données n’est pas adapté. Au contraire, les échantillons devraient être choisis de manière adaptative, en fonction de la complexité de la distribution des données pour chaque classe. Les transformers sont généralement préentraînés sur de grands jeux de données, et nous montrons que, pour certains jeux de données cibles, il est bénéfique de conserver leurs performances stables même à des tailles de coreset très réduites. Nous montrons également que, lorsque aucun préentraînement n’est effectué, ou lorsque des modèles transformers préentraînés sont utilisés avec des images non naturelles (par exemple des données médicales), les CNN présentent une meilleure généralisation que les transformers, même à des tailles de coreset très faibles. Enfin, nous démontrons qu’en l’absence d’un bon préentraînement, les CNN sont mieux capables d’apprendre la cohérence sémantique entre des objets spatialement éloignés au sein d’une même image, ce qui leur confère un avantage significatif sur presque toutes les tailles de coreset considérées.