HyperAIHyperAI
il y a 11 jours

Intégration de modèles pré-entraînés Transformer Encoder-Décodificateurs pour la détection d'objets visuels

Feng Liu, Xiaosong Zhang, Zhiliang Peng, Zonghao Guo, Fang Wan, Xiangyang Ji, Qixiang Ye
Intégration de modèles pré-entraînés Transformer Encoder-Décodificateurs pour la détection d'objets visuels
Résumé

Les détecteurs d'objets modernes ont tiré parti des réseaux de base pré-entraînés sur de grandes bases de données. Toutefois, en dehors des réseaux de base, d'autres composants tels que la tête du détecteur et le réseau pyramidale de caractéristiques (FPN) restent généralement entraînés à partir de zéro, ce qui limite l'exploitation optimale du potentiel des modèles de représentation. Dans cette étude, nous proposons de migrer intégralement des encodeurs-décodeurs transformer pré-entraînés (imTED) vers un détecteur, en construisant ainsi un chemin d'extraction de caractéristiques entièrement pré-entraîné, afin de maximiser la capacité de généralisation du détecteur. Les différences essentielles entre imTED et le détecteur de base résident dans deux aspects : (1) la migration du décodeur transformer pré-entraîné vers la tête du détecteur, tout en supprimant le FPN initialisé aléatoirement du chemin d'extraction de caractéristiques ; et (2) la définition d'un modulateur de caractéristiques à plusieurs échelles (MFM) pour améliorer l'adaptabilité à différentes échelles. Ces conceptions réduisent significativement le nombre de paramètres initialisés aléatoirement, tout en unifiant intentionnellement l'entraînement du détecteur avec l'apprentissage de représentation. Des expériences menées sur le jeu de données de détection d'objets MS COCO montrent qu’imTED dépasse systématiquement ses concurrents d’environ 2,4 AP. Sans recourir à des améliorations supplémentaires, imTED améliore l’état de l’art de la détection d’objets à faible exemplaire jusqu’à 7,6 AP. Le code est disponible à l’adresse suivante : https://github.com/LiewFeng/imTED.

Intégration de modèles pré-entraînés Transformer Encoder-Décodificateurs pour la détection d'objets visuels | Articles de recherche récents | HyperAI