Classification de texte dans le monde réel : un grand ensemble de données pour la normalisation des noms à queue longue

Les données du monde réel présentent généralement une distribution à queue longue, avec quelques étiquettes fréquentes et de nombreuses étiquettes peu représentées. L'étude de la normalisation des noms d'institutions est un cas d'application parfait illustrant ce phénomène. Il existe de nombreuses institutions dans le monde entier, dont les noms varient considérablement dans la littérature publiquement disponible. Dans cette recherche, nous avons d'abord constitué un jeu de données à grande échelle pour la normalisation des noms d'institutions, appelé LoT-insts1, qui contient plus de 25 000 classes présentant une distribution naturellement à queue longue. Afin d'isoler les scénarios d'apprentissage avec peu d'exemples (few-shot) et sans exemple (zero-shot) des classes à nombreux exemples (many-shot), nous avons construit notre ensemble de test à partir de quatre sous-ensembles différents : des ensembles many-, medium- et few-shot, ainsi qu'un ensemble ouvert zero-shot. Nous avons également reproduit plusieurs méthodes importantes de base sur nos données, couvrant un large spectre allant des méthodes basées sur la recherche aux méthodes utilisant des réseaux neuronaux pré-entraînés avec le modèle BERT. De plus, nous proposons notre propre modèle pré-entraîné basé sur BERT, qui montre une meilleure généralisation hors distribution sur les ensembles de test few-shot et zero-shot. Comparativement à d'autres jeux de données axés sur le phénomène à queue longue, notre jeu de données contient un ordre de grandeur supplémentaire de données d'entraînement par rapport aux plus grands jeux de données existants à queue longue et présente une distribution naturellement à queue longue plutôt que synthétisée artificiellement. Nous pensons qu'il offre un scénario important et différent pour l'étude de ce problème. Selon nos connaissances, c'est le premier jeu de données en langage naturel se concentrant sur les problèmes de classification à queue longue et en ensemble ouvert.