FRAKE : Extraction automatique en temps réel de mots-clés par fusion

L'extraction de mots-clés consiste à identifier, dans un texte, les mots ou expressions qui expriment au mieux les concepts principaux. L'infrastructure électronique génère quotidiennement et en continu une quantité considérable de textes. Ce volume massif de documents rend pratiquement impossible, pour les ressources humaines, leur étude et leur gestion. Pourtant, la nécessité d'y accéder de manière efficace et rapide se fait clairement sentir dans de nombreux contextes. Un blog, un article d'actualité ou une note technique est considéré comme un texte relativement long, dans la mesure où le lecteur cherche à comprendre le sujet à travers des mots-clés ou des thèmes. Notre approche repose sur une combinaison de deux types de modèles : les caractéristiques de centralité dans les graphes et les caractéristiques textuelles. La méthode proposée permet d’extraire les meilleurs mots-clés parmi un ensemble de candidats, en combinant de manière optimale différentes mesures de centralité dans les graphes — telles que la centralité de degré, la centralité de betweenness, la centralité par vecteur propre, la centralité de proximité, etc. — ainsi que des caractéristiques textuelles, notamment la casse (casing), la position du terme dans le texte, la fréquence normalisée du terme, la répartition du terme à travers les phrases, et l’analyse morphosyntaxique (Part-of-Speech tagging). Des tentatives ont également été faites pour distinguer les mots-clés des phrases candidates, en traitant ces dernières comme des unités indépendantes. Pour évaluer la méthode proposée, sept jeux de données ont été utilisés : Semeval2010, SemEval2017, Inspec, fao30, Thesis100, pak2018 et Wikinews, avec des résultats rapportés en termes de précision (Precision), de rappel (Recall) et de score F (F-measure). La méthode proposée s’est avérée nettement supérieure aux méthodes existantes dans la littérature, selon les métriques d’évaluation, sur l’ensemble des jeux de données examinés. Une augmentation d’environ 16,9 % du score F a été observée, avec une amélioration encore plus marquée sur les jeux de données Inspec en anglais et Wikinews dans les langues non anglaises.