HyperAIHyperAI
il y a 11 jours

Un modèle semi-supervisé pour la vérification des rumeurs en persan basé sur les informations contenues dans le contenu

{Arash Sharifi, Mohammad-Reza Feizi-Derakhshi, Zoleikha Jahanbakhsh-Nagadeh}
Résumé

Le bruit est une tentative collective d’interpréter une situation floue mais attrayante à l’aide de la puissance du langage. Sur les réseaux sociaux, les fausses rumeurs peuvent présenter des caractéristiques contextuelles sensiblement différentes des rumeurs véritables aux niveaux lexical, syntaxique et sémantique. Ainsi, cette étude présente le modèle d’apprentissage semi-supervisé BERT-SAWS pour la vérification précoce des rumeurs en persan, en analysant les caractéristiques basées sur le contenu et le contexte à trois niveaux : les représentations vectorielles contextuelles des mots (CWE), les actes de parole (speech act) et le style d’écriture (WS). Ce modèle repose sur le chargement d’un représentant linguistique pré-entraîné Bidirectional Encoder Representations from Transformers (BERT), utilisé comme représentation non supervisée du langage, puis finement ajusté à l’aide d’un petit jeu de données persan de rumeurs, avant d’être combiné à un modèle d’apprentissage supervisé afin d’obtenir une représentation enrichie du contenu de la rumeur. Cette représentation textuelle permet au modèle de mieux comprendre le langage des rumeurs, améliorant ainsi sa capacité à les vérifier par rapport aux modèles de référence, pour deux raisons principales : (i) une vérification précoce des rumeurs en se concentrant sur les caractéristiques basées sur le contenu et le contexte de la rumeur initiale ; (ii) la surmontation du problème lié à la faible taille des données dans les réseaux neuronaux profonds, en exploitant BERT pré-entraîné, en le fine-tunant à l’aide du jeu de données persan de rumeurs, et en combinant ces représentations avec des caractéristiques issues des actes de parole et du style d’écriture. Les résultats empiriques obtenus sur les jeux de données Twitter et Telegram démontrent que BERT-SAWS permet d’améliorer la performance du classificateur de 2 % à 18 %. Cela indique que les actes de parole et le style d’écriture, combinés aux vecteurs contextuels sémantiques, constituent des caractéristiques pertinentes pour la tâche de vérification des rumeurs.

Un modèle semi-supervisé pour la vérification des rumeurs en persan basé sur les informations contenues dans le contenu | Articles de recherche récents | HyperAI