Lbl2Vec : Une approche basée sur l'embedding pour la recherche non supervisée de documents sur des sujets prédéfinis

Dans cet article, nous abordons la tâche de récupérer des documents avec des sujets prédéfinis à partir d'un ensemble de données de documents non étiquetés en utilisant une approche non supervisée. L'approche non supervisée proposée ne nécessite qu'un petit nombre de mots-clés décrivant les sujets respectifs et aucun document étiqueté. Les méthodes existantes reposaient soit sur une quantité importante de connaissances mondiales codées supplémentairement, soit sur les fréquences terme-document. En revanche, nous présentons une méthode qui apprend conjointement des vecteurs de documents et de mots intégrés uniquement à partir de l'ensemble de données de documents non étiquetés afin de trouver des documents sémantiquement similaires aux sujets décrits par les mots-clés. La méthode proposée nécessite presque aucun prétraitement du texte mais est simultanément efficace pour récupérer des documents pertinents avec une forte probabilité. Lorsque nous avons successivement récupéré des documents sur différents sujets prédéfinis à partir d'ensembles de données publiquement disponibles et couramment utilisés, nous avons obtenu une valeur moyenne sous la courbe caractéristique du récepteur (AUC-ROC) de 0,95 pour un ensemble de données et de 0,92 pour un autre. De plus, notre méthode peut être utilisée pour la classification multiclasse des documents sans avoir besoin d'étiqueter l'ensemble de données au préalable. Comparée à une ligne de base non supervisée pour la classification, nous avons amélioré les scores F1 de 76,6 à 82,7 et de 61,0 à 75,1 respectivement sur les ensembles de données concernés. Pour faciliter la reproduction facile de notre approche, nous mettons le code Lbl2Vec développé librement à disposition sous forme d'outil prêt à l'emploi sous licence BSD 3 clauses.