HyperAIHyperAI

Command Palette

Search for a command to run...

Lbl2Vec : Une approche basée sur l'embedding pour la recherche non supervisée de documents sur des sujets prédéfinis

Tim Schopf Daniel Braun Florian Matthes

Résumé

Dans cet article, nous abordons la tâche de récupérer des documents avec des sujets prédéfinis à partir d'un ensemble de données de documents non étiquetés en utilisant une approche non supervisée. L'approche non supervisée proposée ne nécessite qu'un petit nombre de mots-clés décrivant les sujets respectifs et aucun document étiqueté. Les méthodes existantes reposaient soit sur une quantité importante de connaissances mondiales codées supplémentairement, soit sur les fréquences terme-document. En revanche, nous présentons une méthode qui apprend conjointement des vecteurs de documents et de mots intégrés uniquement à partir de l'ensemble de données de documents non étiquetés afin de trouver des documents sémantiquement similaires aux sujets décrits par les mots-clés. La méthode proposée nécessite presque aucun prétraitement du texte mais est simultanément efficace pour récupérer des documents pertinents avec une forte probabilité. Lorsque nous avons successivement récupéré des documents sur différents sujets prédéfinis à partir d'ensembles de données publiquement disponibles et couramment utilisés, nous avons obtenu une valeur moyenne sous la courbe caractéristique du récepteur (AUC-ROC) de 0,95 pour un ensemble de données et de 0,92 pour un autre. De plus, notre méthode peut être utilisée pour la classification multiclasse des documents sans avoir besoin d'étiqueter l'ensemble de données au préalable. Comparée à une ligne de base non supervisée pour la classification, nous avons amélioré les scores F1 de 76,6 à 82,7 et de 61,0 à 75,1 respectivement sur les ensembles de données concernés. Pour faciliter la reproduction facile de notre approche, nous mettons le code Lbl2Vec développé librement à disposition sous forme d'outil prêt à l'emploi sous licence BSD 3 clauses.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp