Réseaux d'attention basés sur Transformer pour la prédiction continue au niveau des pixels

Bien que les réseaux de neurones convolutifs aient eu un impact considérable sur diverses tâches de vision par ordinateur, ils présentent généralement des limites pour modéliser explicitement les dépendances à longue portée, en raison de la localité intrinsèque de l'opération de convolution. Initialement conçus pour des tâches de traitement du langage naturel, les Transformers sont apparus comme des architectures alternatives, dotées d’un mécanisme intrinsèque d’attention auto-globale permettant de capturer efficacement les dépendances à longue portée. Dans cet article, nous proposons TransDepth, une architecture qui tire parti à la fois des réseaux de neurones convolutifs et des Transformers. Pour éviter que le réseau ne perde sa capacité à capter les détails au niveau local suite à l’intégration des Transformers, nous introduisons un nouveau décodeur reposant sur des mécanismes d’attention basés sur des portes. Notons que c’est la première étude à appliquer les Transformers aux problèmes de prédiction pixel-par-pixel impliquant des étiquettes continues (à savoir la prédiction de profondeur monoscopique et l’estimation de normales de surface). Des expériences étendues montrent que TransDepth atteint des performances de pointe sur trois jeux de données exigeants. Notre code est disponible à l’adresse suivante : https://github.com/ygjwd12345/TransDepth.