Un modèle fondé sur le contenu profond pour la vérification des rumeurs en persan
Au cours du développement des réseaux sociaux, une transformation s’est produite dans la communication sociale. Bien que ces plateformes offrent des applications positives en matière d’interactions sociales et de diffusion d’informations, elles constituent également un terrain idéal pour la propagation des rumeurs. Ces dernières peuvent menacer la sécurité de la société, qu’il s’agisse de situations ordinaires ou critiques. Il est donc essentiel de détecter et de vérifier les rumeurs dès les premiers stades de leur diffusion. De nombreuses études se sont concentrées sur les attributs sociaux au sein des réseaux sociaux pour résoudre le problème de détection et de vérification des rumeurs, tandis que moins d’attention a été accordée aux caractéristiques sémantiques du contenu. Or, les caractéristiques sociales et structurelles des rumeurs évoluent au fil du temps et ne sont pas disponibles en phase initiale. Ainsi, cette étude propose un modèle basé sur le contenu pour vérifier précocement les rumeurs en persan sur Twitter et Telegram. Le modèle proposé met en évidence le rôle crucial du contenu dans la propagation des rumeurs et génère une représentation intégrée plus riche pour chaque document de rumeur en fusionnant ses informations sémantiques, pragmatiques et syntaxiques. Tout d’abord, des embeddings contextuels de mots pour la rumeur source sont générés à l’aide d’un modèle hybride fondé sur ParsBERT et des CapsNets en parallèle. Ensuite, les caractéristiques pragmatiques et syntaxiques de la rumeur sont extraites et concaténées aux embeddings afin de capturer une information riche pour la vérification. Les résultats expérimentaux sur des jeux de données réels démontrent que le modèle proposé surpasse significativement les modèles les plus avancés dans la tâche de vérification précoce des rumeurs. En outre, il améliore les performances du classificateur de 2 % à 11 % sur Twitter et de 5 % à 23 % sur Telegram. Ces résultats confirment l’efficacité du modèle, même lorsque les informations de contenu disponibles sont limitées.