il y a 16 jours

Transformateur guidé par prompt pour la prédiction dense multi-tâches

Yuxiang Lu, Shalayiding Sirejiding, Yue Ding, Chunlin Wang, Hongtao Lu

Résumé

L'architecture conditionnelle par tâche offre un avantage en efficacité des paramètres, mais se révèle inférieure en performance par rapport aux méthodes de type multi-décodage les plus avancées. L'optimisation du compromis entre performance et nombre de paramètres constitue un problème important et délicat. Dans cet article, nous introduisons un modèle simple et léger conditionnel par tâche, nommé Prompt Guided Transformer (PGT), afin de répondre à ce défi. Notre approche repose sur un bloc Transformer conditionné par des prompts, qui intègre des prompts spécifiques à chaque tâche dans le mécanisme d'attention auto-associative afin d’assurer une modélisation des dépendances globales et une adaptation efficace des caractéristiques en termes de paramètres sur plusieurs tâches. Ce bloc est intégré à la fois dans l’encodeur partagé et le décodeur, améliorant ainsi la capture des caractéristiques intra- et inter-tâches. En outre, nous avons conçu un décodeur léger, réduisant davantage l’utilisation des paramètres, qui ne représente que 2,7 % du nombre total de paramètres du modèle. Des expériences étendues sur deux benchmarks de prédiction dense multi-tâches, PASCAL-Context et NYUD-v2, démontrent que notre méthode atteint des résultats de pointe parmi les approches conditionnelles par tâche tout en utilisant moins de paramètres, tout en maintenant un équilibre significatif entre performance et taille du modèle.