Prédiction des caractéristiques subjectives des questions sur les sites de Q&R à l’aide de BERT

Les sites de questions-réponses communautaires, tels que StackOverflow ou Quora, s'attendent à ce que les utilisateurs respectent des directives spécifiques afin de garantir la qualité du contenu. Ces systèmes s'appuient principalement sur les signalements effectués par la communauté pour évaluer les contenus, ce qui soulève de sérieux problèmes : traitement lent des infractions, perte de temps pour les utilisateurs expérimentés et normaux, qualité médiocre de certains signalements, et manque de feedback encourageant envers les nouveaux utilisateurs. Ainsi, dans une optique globale de proposer des solutions pour automatiser les actions de modération sur les sites Q&R, nous nous sommes fixé pour objectif de développer un modèle capable de prédire 20 aspects de qualité ou subjectifs des questions présents sur ces plateformes. À cette fin, nous avons utilisé des données collectées par l'équipe CrowdSource de Google Research en 2019, ainsi qu'un modèle BERT pré-entraîné fine-tuné sur notre problème. Sur la base de l'évaluation par erreur quadratique moyenne (MSE), le modèle a atteint une valeur de 0,046 après deux époques d'entraînement, sans amélioration significative lors des époques suivantes. Les résultats confirment qu'en procédant à un simple fine-tuning, il est possible d'obtenir des modèles précis en peu de temps et avec une quantité réduite de données.