il y a 11 jours

Réseaux multi-tâches flexibles par apprentissage de l'allocation de paramètres

Krzysztof Maziarz, Efi Kokiopoulou, Andrea Gesmundo, Luciano Sbaiz, Gabor Bartok, Jesse Berent

Résumé

Cet article propose une nouvelle méthode d’apprentissage pour les applications multi-tâches. Les réseaux neuronaux multi-tâches peuvent apprendre à transférer des connaissances entre différentes tâches grâce au partage de paramètres. Toutefois, partager des paramètres entre des tâches non liées peut nuire à la performance. Pour résoudre ce problème, nous proposons un cadre permettant d’apprendre des motifs fins de partage de paramètres. En supposant que le réseau est composé de plusieurs composants répartis sur différentes couches, notre cadre utilise des variables binaires apprises pour attribuer ces composants aux tâches, afin de favoriser un partage accru de paramètres entre des tâches corrélées, tout en décourageant ce partage dans les autres cas. Ces variables d’attribution binaires sont apprises conjointement avec les paramètres du modèle par une rétropropagation standard, grâce à la méthode de réparamétrisation Gumbel-Softmax. Lorsqu’il est appliqué au benchmark Omniglot, la méthode proposée réduit de 17 % le taux d’erreur par rapport aux approches de pointe.