Mr. DETR : Entraînement multi-chemins instructif pour les transformateurs de détection

Les méthodes existantes améliorent l'entraînement des transformateurs de détection en intégrant une affectation auxiliaire un-à-plusieurs. Dans ce travail, nous considérons le modèle comme un cadre multi-tâches, effectuant simultanément des prédictions un-à-un et un-à-plusieurs. Nous étudions les rôles de chaque composant du décodeur de transformer dans ces deux objectifs d'entraînement, notamment l'attention autonome, l'attention croisée et le réseau feed-forward. Nos résultats expérimentaux démontrent qu'un composant indépendant du décodeur peut efficacement apprendre les deux objectifs simultanément, même lorsque les autres composants sont partagés. Ce constat nous amène à proposer un mécanisme d'entraînement multi-chemins, comprenant une voie principale pour la prédiction un-à-un et deux voies d'entraînement auxiliaires pour la prédiction un-à-plusieurs. Nous améliorons ce mécanisme d'entraînement grâce à une nouvelle attention autonome directive, qui guide dynamiquement et de manière flexible les requêtes d'objets pour la prédiction un-à-plusieurs. Les voies auxiliaires sont supprimées lors de l'inférence, garantissant ainsi qu'aucun impact n'est exercé sur l'architecture du modèle ou le coût d'inférence. Nous menons des expériences approfondies sur diverses bases, obtenant des améliorations constantes, comme illustré à la Figure 1. Page du projet : https://visual-ai.github.io/mrdetr