CMW-Net : Apprendre une cartographie de pondération d’échantillons sensible à la classe pour un apprentissage profond robuste

Les réseaux de neurones profonds modernes sont susceptibles de surajuster facilement aux données d'entraînement biaisées, contenant des étiquettes corrompues ou présentant un déséquilibre de classes. Les méthodes de rééchantillonnage par pondération des échantillons sont couramment utilisées pour atténuer ce biais dans les données. Toutefois, la plupart des méthodes actuelles nécessitent de spécifier manuellement les schémas de pondération ainsi que leurs hyperparamètres supplémentaires, qui dépendent des caractéristiques du problème étudié et des données d'entraînement. Cela rend leur application générale dans des scénarios pratiques assez difficile, en raison de leur complexité significative et des variations interclasses des situations de biais. Pour résoudre ce problème, nous proposons un méta-modèle capable d’apprendre de manière adaptative un schéma de pondération explicite directement à partir des données. Plus précisément, en traitant chaque classe d'entraînement comme une tâche d'apprentissage distincte, notre méthode vise à extraire une fonction de pondération explicite dont les entrées sont la perte de l’échantillon et les caractéristiques de la tâche/classe, et dont la sortie est le poids de l’échantillon. L’objectif est d’appliquer des schémas de pondération adaptatifs variables selon les classes d’échantillons, en fonction de leurs caractéristiques intrinsèques de biais. Des expériences sur des données synthétiques et réelles confirment la capacité de notre méthode à obtenir des schémas de pondération appropriés dans diverses situations de biais, telles que le déséquilibre de classes, le bruit d’étiquettes indépendant ou dépendant des caractéristiques, ainsi que des scénarios de biais plus complexes dépassant les cas classiques. En outre, la transférabilité de la fonction de pondération apprise est également démontrée, en déployant aisément la fonction apprise sur le petit jeu de données CIFAR-10 (à échelle réduite) sur le jeu de données WebVision complet (à grande échelle). Un gain de performance est immédiatement observé par rapport aux méthodes les plus avancées précédentes, sans nécessiter de réglage supplémentaire d’hyperparamètres ni d’étape de descente de gradient méta. La faisabilité générale de notre méthode pour plusieurs problèmes robustes en apprentissage profond, notamment l’apprentissage partiellement étiqueté, l’apprentissage semi-supervisé et la classification sélective, a également été validée.