Ensemble adaptatif efficace pour la classification d'images

À l’heure actuelle, à l’exception de cas isolés, la tendance en vision par ordinateur consiste à obtenir des améliorations mineures au prix d’une augmentation considérable de la complexité. Pour inverser cette tendance, nous proposons une nouvelle méthode permettant d’améliorer les performances de classification d’images sans accroître la complexité. À cette fin, nous avons réexaminé l’approche d’ensemblage, une méthode puissante souvent mal exploitée en raison de sa nature plus complexe et de son temps d’entraînement élevé, tout en la rendant réalisable grâce à un choix de conception spécifique. Premièrement, nous avons entraîné deux modèles EfficientNet-b0 en boucle complète (connus pour offrir le meilleur compromis entre précision globale et complexité dans le domaine de la classification d’images) sur des sous-ensembles disjoints des données (c’est-à-dire selon une stratégie de bagging). Ensuite, nous avons mis en œuvre un ensemble adaptatif efficace en procédant au fine-tuning d’une couche combinatoire entraînable. Grâce à cette approche, nous avons surpassé l’état de l’art en moyenne de 0,5 % en précision, tout en maîtrisant strictement la complexité, tant en nombre de paramètres (réduction de 5 à 60 fois), qu’en nombre d’opérations à virgule flottante par seconde (FLOPS, réduction de 10 à 100 fois), sur plusieurs jeux de données standard majeurs.