Une approche évolutionnaire pour l’introduction dynamique de tâches dans les systèmes à grande échelle d’apprentissage multitâche

L'apprentissage multitâche suppose que les modèles capables d'apprendre à partir de plusieurs tâches peuvent atteindre une meilleure qualité et une meilleure efficacité grâce au transfert de connaissances, une caractéristique clé de l'apprentissage humain. Toutefois, les modèles d'apprentissage automatique de pointe reposent souvent sur une personnalisation importante pour chaque tâche, et exploitent principalement la taille du modèle et l'échelle des données plutôt que l'augmentation du nombre de tâches. De plus, l'apprentissage continu, qui introduit une dimension temporelle dans l'apprentissage multitâche, est fréquemment étudié principalement sous l'angle des pièges courants tels que l'oubli catastrophique, plutôt que considéré à grande échelle comme un composant essentiel pour construire une nouvelle génération d'intelligence artificielle. Nous proposons une méthode évolutive capable de générer des modèles multitâche à grande échelle, capables de supporter l'ajout dynamique de nouvelles tâches. Les modèles multitâche ainsi générés sont activés de manière creuse et intègrent une routage basé sur les tâches, garantissant un coût de calcul borné et un nombre réduit de paramètres ajoutés par tâche au fur et à mesure de l'expansion du modèle. La méthode proposée repose sur une technique de compartimentation des connaissances afin d'assurer une immunité contre l'oubli catastrophique ainsi que d'autres pièges fréquents tels que l'interférence des gradients et le transfert négatif. Nous démontrons empiriquement que la méthode proposée permet de résoudre simultanément 69 tâches publiques de classification d'images avec des résultats compétitifs, par exemple en améliorant l'état de l'art sur un benchmark concurrentiel comme CIFAR-10, en réalisant une réduction relative de 15 % de l'erreur par rapport au meilleur modèle entraîné sur des données publiques.