HyperAIHyperAI
il y a 15 jours

DyTox : Transformers pour l'apprentissage continu avec expansion dynamique des tokens

Arthur Douillard, Alexandre Ramé, Guillaume Couairon, Matthieu Cord
DyTox : Transformers pour l'apprentissage continu avec expansion dynamique des tokens
Résumé

Les architectures de réseaux profonds peinent à apprendre continuellement de nouvelles tâches sans oublier celles précédemment acquises. Une tendance récente montre que les architectures dynamiques fondées sur une extension des paramètres permettent de réduire efficacement l’oubli catastrophique dans le cadre de l’apprentissage continu. Toutefois, les approches existantes nécessitent souvent un identifiant de tâche au moment de l’évaluation, exigent un réglage complexe pour équilibrer le nombre croissant de paramètres, et partagent très peu d’information entre les différentes tâches. En conséquence, elles peinent à s’échelonner à un grand nombre de tâches sans surcharge significative. Dans cet article, nous proposons une architecture de transformateur basée sur un cadre dédié d’encodeur/décodeur. De manière cruciale, l’encodeur et le décodeur sont partagés entre toutes les tâches. Grâce à une expansion dynamique de jetons spéciaux, nous spécialisons chaque passage avant de notre réseau de décodeur selon la distribution de chaque tâche. Notre stratégie s’étend à un grand nombre de tâches tout en présentant des surcoûts négligeables en mémoire et en temps, grâce à un contrôle strict de l’expansion des paramètres. En outre, cette stratégie efficace ne nécessite aucune optimisation de hyperparamètres pour réguler l’expansion du réseau. Notre modèle atteint des résultats excellents sur CIFAR100 et des performances de pointe sur les jeux de données à grande échelle ImageNet100 et ImageNet1000, tout en disposant d’un nombre de paramètres inférieur à celui des cadres dynamiques concurrents.