Incertainza Bayésienne pour l'agrégation des gradients dans l'apprentissage multi-tâches

Alors que l'apprentissage automatique gagne en importance, la demande croissante de réaliser plusieurs tâches d'inférence en parallèle se fait jour. Exécuter un modèle dédié pour chaque tâche s'avère coûteux en termes de calcul, ce qui explique l'intérêt croissant porté à l'apprentissage multi-tâches (Multi-Task Learning, MTL). L'objectif du MTL est d'apprendre un seul modèle capable de traiter efficacement plusieurs tâches simultanément. L'optimisation des modèles MTL est généralement réalisée en calculant un gradient unique par tâche, puis en les agrégant pour obtenir une direction de mise à jour combinée. Toutefois, ces approches négligent un aspect crucial : la sensibilité des dimensions du gradient. Dans cet article, nous proposons une nouvelle méthode d'agrégation de gradients basée sur l'inférence bayésienne. Nous définissons une distribution de probabilité sur les paramètres spécifiques à chaque tâche, ce qui induit à son tour une distribution sur les gradients associés à chaque tâche. Cette information supplémentaire permet de quantifier l'incertitude présente dans chaque dimension du gradient, et de l'intégrer explicitement lors de l'agrégation. Nous démontrons empiriquement les avantages de notre approche sur divers jeux de données, atteignant des performances de pointe dans plusieurs cas.