il y a 2 mois

InvPT : Transformateur Multi-tâches à Pyramide Inversée pour la Compréhension Densément Scénarisée

Hanrong Ye; Dan Xu

Résumé

La compréhension dense de scènes multitâche est un domaine de recherche en pleine expansion qui nécessite une perception et une raisonnement simultanés sur une série de tâches corrélées avec des prédictions au niveau des pixels. La plupart des travaux existants rencontrent une limitation sévère dans la modélisation locale due à l'utilisation intensive d'opérations de convolution, alors que l'apprentissage des interactions et l'inférence dans un contexte spatial global et multitâche sont cruciaux pour ce problème. Dans cet article, nous proposons un nouveau Transformers multitâche à pyramide inversée (InvPT) de bout en bout pour effectuer une modélisation simultanée des positions spatiales et de plusieurs tâches dans un cadre unifié. À notre connaissance, c'est le premier travail qui explore la conception d'une structure de Transformers pour les prédictions denses multitâche dans la compréhension de scènes. De plus, il est largement démontré qu'une résolution spatiale plus élevée est remarquablement bénéfique pour les prédictions denses, bien qu'il soit très difficile pour les Transformers existants d'aller plus profondément avec des résolutions plus élevées en raison de la complexité considérable liée aux grandes tailles spatiales. L'InvPT présente un bloc UP-Transformer efficace pour apprendre les interactions de caractéristiques multitâche à des résolutions progressivement augmentées, intégrant également une transmission efficace de messages par auto-attention et une agrégation de caractéristiques multiscale pour produire des prédictions spécifiques à chaque tâche à haute résolution. Notre méthode obtient des performances supérieures en multitâche respectivement sur les jeux de données NYUD-v2 et PASCAL-Context, surpassant significativement les méthodes précédentes state-of-the-art. Le code est disponible à l'adresse suivante : https://github.com/prismformore/InvPT