Protoformer : Intégration de prototypes d'embeddings pour les Transformers

Les Transformers ont été largement appliqués à la classification de texte. Malheureusement, les données du monde réel contiennent souvent des anomalies et des étiquettes bruitées, ce qui pose des défis aux Transformers d’avant-garde. Ce papier propose Protoformer, un nouveau cadre d’apprentissage auto-supervisé pour les Transformers, capable d’exploiter efficacement les échantillons problématiques pour la classification de texte. Protoformer intègre un mécanisme de sélection des embeddings qui permet d’extraire et d’utiliser de manière efficace des prototypes d’anomalies ainsi que des prototypes de classes difficiles. Nous avons démontré ces capacités sur des jeux de données présentant des structures textuelles diverses (par exemple, Twitter, IMDB, ArXiv). Nous avons également appliqué ce cadre à plusieurs modèles. Les résultats montrent que Protoformer améliore les Transformers actuels dans diverses configurations empiriques.