HyperAIHyperAI
il y a 17 jours

PatternRank : Exploiter les Modèles Linguistiques Pré-Entraînés et les Parties du Discours pour l'Extraction Non Supervisée de Mots-Clés

Tim Schopf, Simon Klimek, Florian Matthes
PatternRank : Exploiter les Modèles Linguistiques Pré-Entraînés et les Parties du Discours pour l'Extraction Non Supervisée de Mots-Clés
Résumé

L'extraction de mots-clés consiste à sélectionner automatiquement un petit ensemble de phrases les plus pertinentes à partir d’un texte donné. Les approches supervisées d’extraction de mots-clés nécessitent de grandes quantités de données d’entraînement étiquetées et se comportent médiocrement en dehors du domaine des données d’entraînement. Dans cet article, nous présentons PatternRank, une méthode qui exploite les modèles linguistiques préentraînés ainsi que les catégories grammaticales (part-of-speech) pour l’extraction non supervisée de mots-clés à partir de documents individuels. Nos expérimentations montrent que PatternRank atteint des scores de précision, de rappel et de F1 supérieurs à ceux des approches précédemment les plus performantes. En outre, nous introduisons le package KeyphraseVectorizers, qui permet une modification aisée des motifs de catégories grammaticales pour la sélection des candidats mots-clés, facilitant ainsi l’adaptation de notre approche à tout domaine.