Apprentissage robuste grâce à la cohérence entre tâches

La perception visuelle consiste à résoudre un large éventail de tâches (par exemple, détection d'objets, estimation de profondeur, etc.). Les prédictions effectuées pour différentes tâches à partir d'une même image ne sont pas indépendantes et doivent donc être « cohérentes ». Nous proposons un cadre computationnel flexible et entièrement automatique pour l'apprentissage tout en imposant une cohérence entre les tâches (X-TAC). Cette formulation repose sur l'invariance du chemin d'inférence sur un graphe arbitraire des domaines de prédiction. Nous observons que l'apprentissage avec cohérence entre les tâches conduit à des prédictions plus précises, une meilleure généralisation aux échantillons hors distribution, ainsi qu'une efficacité accrue en termes d'échantillons. Ce cadre permet également de définir une quantité puissante en apprentissage non supervisé, appelée « Énergie de cohérence », qui mesure la cohérence intrinsèque du système. L’Énergie de cohérence est fortement corrélée à l’erreur supervisée (r = 0,67), ce qui la rend utilisable comme métrique robuste non supervisée, ainsi que pour la détection d’entrées hors distribution (AUC = 0,99). Les évaluations ont été menées sur plusieurs jeux de données, notamment Taskonomy, Replica, CocoDoom et ApolloScape.