Les Transformers sont des classificateurs de textes courts : une étude sur les classificateurs inductifs de textes courts sur des benchmarks et des jeux de données du monde réel

La classification de textes courts constitue un aspect crucial et difficile du traitement automatique des langues. À cet égard, de nombreux classificateurs spécialisés ont été développés. Toutefois, dans les recherches récentes sur les textes courts, les méthodes de pointe (State of the Art, SOTA) classiques en classification de textes — en particulier l’usage pur des Transformers — restent largement sous-exploitées. Dans ce travail, nous évaluons les performances de divers classificateurs de textes courts, ainsi que celles du meilleur classificateur traditionnel. Nous étudions également l’impact de ces approches sur deux nouveaux jeux de données réels, dans une perspective d’atténuer la dépendance excessive aux jeux de données de référence aux caractéristiques limitées. Nos expérimentations démontrent sans ambiguïté que les Transformers atteignent un niveau de précision de pointe sur les tâches de classification de textes courts, soulevant ainsi la question de la nécessité réelle des techniques spécialisées dédiées aux textes courts.