Nouvelle Stratégie de Tirage de Données par Lot Petite Taille pour Améliorer la Généralisation Hors Distribution des Modèles d'Auto-Supervision
Récemment, une équipe de chercheurs de l'Institut de Logiciel de l'Académie chinoise des Sciences a élaboré une stratégie d'échantillonnage de données par lots de petite taille pour améliorer les capacités de généralisation hors distribution des modèles d'apprentissage auto-supervisé. Cette technique sert à éliminer les fausses corrélations causées par des variables latentes non observables, qui peuvent perturber l'apprentissage des caractéristiques pertinentes lors de la formation du modèle. La capacité de généralisation hors distribution d'un modèle d'apprentissage auto-supervisé se définit par sa performance sur des données de test dont la distribution statistique diffère de celle des données d'entraînement. Autrement dit, le modèle doit être capable de maintenir une qualité d'inférence similaire même sur des données qu'il n'a jamais vues pendant l’entraînement. Cependant, diverses recherches ont mis en évidence que ces modèles subissent, durant leur apprentissage, des interférences dues aux variables latentes non observables sans rapport avec les tâches à accomplir. Pour atténuer cet effet et renforcer la robustesse du modèle, les chercheurs chinois ont mis en place une méthodologie qui exploite des estimations d'effet causal. Cette approche consiste à créer un "score d'équilibre" pour chaque exemple d'apprentissage, en déduisant la distribution postérieure des variables sémantiques non observables sous la condition d’avoir un échantillon “pivot” ou “ancre”. Ces données d'ancre sont utilisées comme points de référence pour comparer et équilibrer les autres exemples de la base. Dans la construction des lots, cette méthode rassemble les échantillons ayant des scores d'équilibre identiques ou proches, créant ainsi des mini-lots où les variables sémantiques non observables sont indépendantes des échantillons ancrés. En résulte une réduction des interactions perturbatrices, ce qui favorise un apprentissage plus précis des relations causales, améliorant par conséquent la performance du modèle hors distribution. Les expérimentations menées par cette équipe sur des ensembles de données standard confirment l'efficacité de la stratégie proposée : seules les mécanismes d'échantillonnage ont été modifiés, sans ajustements ni architecture ni hyperparamètres des modèles. L'écart de performance est significatif : un gain d'au moins 2% en précision a été noté par rapport aux principales méthodes d'apprentissage auto-supervisé actuellement employées. Par exemple, pour les tâches de classification sur ImageNet-100 et ImageNet, les précisions Top 1 et Top 5 ont dépassé celles atteintes par la meilleure méthode existante (SOTA). Dans un cadre semi-supervisé, la précision Top 1 a grimpé de plus de 3%, et celle Top 5 de 2%. Quant aux tâches de détection d'objets et de segmentation d'instances en apprentissage par transfert, elles ont toutes vu leurs performances nettement s’améliorer. Des tests sur des tâches d'apprentissage à partir d’un très petit nombre d'exemples, telles que celles impliquants Omniglot, Mini-ImageNet, et CIFAR-FS, ont également montré des augmentations de performance supérieures à 5%. Ces résultats montrent clairement que cette stratégie d'échantillonnage de données par lots réduit les fausses corrélations, améliore la qualité de l'apprentissage causal, et donc la capacité du modèle à bien fonctionner sur des ensembles de test inédits. Les travaux associés à cette recherche ont été acceptés pour présentation à l'un des colloques scientifiques les plus respectés en intelligence artificielle, l'International Conference on Machine Learning (ICML-25), relevant de la catégorie A selon la classification CCF. Une référence à l'article de recherche est disponible aux auteurs intéressés.
