Modèle de CNN multi-tâches pour la prédiction d'attributs

Ce document propose un algorithme d'apprentissage multi-tâches conjoint pour améliorer la prédiction des attributs dans les images à l'aide de réseaux neuronaux convolutifs profonds (CNN). Nous considérons l'apprentissage d'attributs sémantiques binaires par le biais d'un modèle CNN multi-tâches, où chaque CNN prédit un attribut binaire. L'apprentissage multi-tâches permet aux modèles CNN de partager simultanément des connaissances visuelles entre différentes catégories d'attributs. Chaque CNN générera des représentations de caractéristiques spécifiques à l'attribut, puis nous appliquerons l'apprentissage multi-tâches sur ces caractéristiques pour prédire leurs attributs. Dans notre cadre multi-tâches, nous proposons une méthode pour décomposer les paramètres du modèle global en une matrice de tâches latentes et une matrice de combinaison. De plus, les classifieurs sous-échantillonnés peuvent tirer parti des statistiques partagées provenant d'autres classifieurs pour améliorer leurs performances. Un regroupement naturel des attributs est appliqué afin que les attributs appartenant au même groupe soient encouragés à partager davantage de connaissances. En revanche, les attributs appartenant à différents groupes seront généralement en concurrence et partageront donc moins de connaissances. Nous démontrons l'efficacité de notre méthode sur deux jeux de données d'attributs populaires.