Appariement de distribution pour l'apprentissage multi-tâches de tâches de classification : une étude à grande échelle sur les visages et au-delà

L'apprentissage multi-tâches (MTL) est un cadre dans lequel plusieurs tâches connexes sont apprises conjointement et bénéficient d'un espace de représentation partagé ou d'un transfert de paramètres. Pour fournir un soutien d'apprentissage suffisant, les MTL modernes utilisent des données annotées avec une superposition complète ou suffisamment importante entre les tâches, c'est-à-dire que chaque échantillon d'entrée est annoté pour toutes ou la plupart des tâches. Cependant, recueillir de telles annotations est souvent prohibitif dans de nombreuses applications réelles et ne peut pas bénéficier des jeux de données disponibles pour les tâches individuelles. Dans ce travail, nous remettons en question cette configuration et montrons que l'MTL peut réussir même avec des tâches de classification ayant peu ou aucune superposition d'annotations, ou lorsque la taille des données étiquetées varie considérablement d'une tâche à l'autre. Nous explorons la pertinence des tâches pour la co-annotation et la co-formation, et proposons une nouvelle approche permettant l'échange de connaissances entre les tâches par le biais de l'ajustement de distribution. Pour démontrer l'applicabilité générale de notre méthode, nous avons mené diverses études de cas dans les domaines du calcul affectif, de la reconnaissance faciale, de la reconnaissance des espèces et de la classification des articles d'achat en utilisant neuf jeux de données. Notre étude à grande échelle sur les tâches affectives pour la reconnaissance des expressions basiques et la détection des unités d'action faciales montre que notre approche est indépendante du réseau et apporte d'importantes améliorations des performances par rapport à l'état de l'art dans les deux tâches et sur toutes les bases de données étudiées. Dans toutes nos études de cas, nous démontrons que la co-formation par pertinence des tâches est avantageuse et évite le transfert négatif (qui se produit lorsque les performances du modèle MT sont inférieures à celles d'au moins un modèle mono-tâche).