HyperAIHyperAI
il y a 2 mois

Évaluation de la classification non supervisée du texte : approches zero-shot et basées sur la similarité

Tim Schopf; Daniel Braun; Florian Matthes
Évaluation de la classification non supervisée du texte : approches zero-shot et basées sur la similarité
Résumé

La classification de texte pour des classes inconnues est une tâche complexe en traitement automatique des langues naturelles (TALN) et est principalement abordée à l'aide de deux types d'approches différentes. Les approches basées sur la similarité tentent de classifier les instances en fonction des similarités entre les représentations de documents textuels et les représentations de descriptions de classe. Les approches de classification de texte zéro-shot visent à généraliser les connaissances acquises lors d'une tâche d'apprentissage en attribuant des étiquettes appropriées pour des classes inconnues aux documents textuels. Bien que des études existantes aient déjà examiné individuellement ces catégories d'approches, les expériences rapportées dans la littérature ne fournissent pas une comparaison cohérente. Cet article comble cette lacune en menant une évaluation systématique de différentes approches basées sur la similarité et zéro-shot pour la classification de texte pour des classes inconnues. Différentes méthodes d'avant-garde sont évaluées sur quatre jeux de données de classification de texte, dont un nouveau jeu de données issu du domaine médical. De plus, des lignes de base novatrices basées sur SimCSE et SBERT sont proposées, car les autres lignes de base utilisées dans les travaux existants produisent des résultats faibles en classification et sont facilement surpassées. Enfin, l'approche novatrice Lbl2TransformerVec basée sur la similarité est présentée, qui surpasse les précédentes méthodes d'avant-garde en classification non supervisée de texte. Nos expériences montrent que les approches basées sur la similarité surpassent significativement les approches zéro-shot dans la plupart des cas. De plus, l'utilisation d'embeddings SimCSE ou SBERT au lieu de représentations textuelles plus simples améliore encore davantage les résultats de classification basés sur la similarité.