Recommandation de balises pour les communautés en ligne de questions et réponses basée sur la technique de pré-entraînement BERT

Les communautés en ligne de questions-réponses et les communautés à code ouvert utilisent des balises et des mots-clés pour indexer, catégoriser et rechercher des contenus spécifiques. L'avantage le plus évident de la recommandation de balises réside dans une classification précise de l'information. Dans cette étude, nous utilisons pour la première fois la technique de pré-entraînement BERT dans la tâche de recommandation de balises au sein des communautés en ligne de questions-réponses et des projets à code ouvert. Nos évaluations sur le jeu de données FreeCode montrent que la méthode proposée, appelée TagBERT, atteint une précision supérieure par rapport aux méthodes basées sur les réseaux de neurones profonds et aux méthodes de référence. En outre, notre modèle présente une stabilité élevée, en résolvant un problème récurrent des recherches antérieures, à savoir la dégradation significative des performances lorsque le nombre de balises recommandées augmente.