HyperAIHyperAI
il y a 9 jours

EXTENSION DES STRUCTURES DE CONVOLUTION CONDITIONNELLE POUR AMÉLIORER L'APPRENTISSAGE CONTINU MULTITÂCHE

{Chu-Song Chen, Cheng-En Wu, Cheng-Hao Tu}
EXTENSION DES STRUCTURES DE CONVOLUTION CONDITIONNELLE POUR AMÉLIORER L'APPRENTISSAGE CONTINU MULTITÂCHE
Résumé

Les opérations conditionnelles ont récemment suscité un intérêt croissant dans les études sur l’apprentissage profond, afin d’améliorer la précision des prédictions des modèles. Une avancée récente dans cette direction est représentée par les convolutions paramétriques conditionnelles (CondConv), proposées pour exploiter des capacités supplémentaires offertes par les poids du modèle profond afin d’améliorer les performances, tout en maintenant une complexité computationnelle relativement faible. Le CondConv utilise des paramètres de fusion dépendants de l’entrée, permettant une combinaison adaptative de plusieurs colonnes de noyaux de convolution afin d’optimiser les performances. Au moment de l’exécution, les colonnes de noyaux sont combinées en ligne en un seul noyau, ce qui réduit considérablement la complexité temporelle par rapport à l’utilisation simultanée de plusieurs colonnes dans une couche de convolution, pour une capacité équivalente. Bien que le CondConv soit efficace pour améliorer les performances d’un modèle profond, il est actuellement appliqué uniquement à des tâches individuelles. Étant donné ses propriétés intéressantes – notamment l’ajout de poids au modèle avec une efficacité computationnelle élevée – nous l’étendons à l’apprentissage multi-tâches, où les tâches sont présentées de manière séquentielle. Dans ce travail, nous introduisons une approche d’apprentissage multi-tâches séquentiel (ou continu) fondée sur les structures CondConv, désignée sous le nom de CondConv-Continual. Les résultats expérimentaux montrent que la méthode proposée est efficace pour l’apprentissage continu sans oubli. Par rapport aux approches existantes, le CondConv présente un avantage majeur : il permet une augmentation régulière et facile à implémenter du réseau neuronal afin d’acquérir une capacité supplémentaire, tout en offrant un mécanisme de référence croisée entre les modèles associés à différentes tâches, favorisant ainsi des résultats comparables.