HyperAIHyperAI
il y a 15 jours

MuMiN : Un ensemble de données à grande échelle, multilingue et multimodal, vérifié par des faits, sur les réseaux sociaux de désinformation

Dan Saattrup Nielsen, Ryan McConville
MuMiN : Un ensemble de données à grande échelle, multilingue et multimodal, vérifié par des faits, sur les réseaux sociaux de désinformation
Résumé

La désinformation devient de plus en plus répandue sur les réseaux sociaux et dans les articles d’actualité. Son ampleur croissante rend nécessaire l’usage d’outils algorithmiques fondés sur l’apprentissage automatique pour détecter ce type de contenu. La formation de ces modèles d’apprentissage automatique nécessite des jeux de données à la fois de grande ampleur, de grande diversité et de haute qualité. Toutefois, les jeux de données existants dans le domaine de la détection automatique de la désinformation sont principalement monolingues, limités en termes de modalités, et insuffisamment volumineux ou de qualité inadéquate. À cet égard, nous développons un système de collecte et d’association de données (MuMiN-trawl) afin de construire un jeu de données public de graphe de désinformation (MuMiN), comprenant des données riches provenant des réseaux sociaux (tweets, réponses, utilisateurs, images, articles, hashtags), couvrant 21 millions de tweets appartenant à 26 000 fils de discussion Twitter, chacun étant sémantiquement lié à 13 000 affirmations vérifiées par des experts, portant sur des dizaines de sujets, événements et domaines, dans 41 langues différentes, sur une période dépassant dix ans. Ce jeu de données est mis à disposition sous forme de graphe hétérogène via un package Python (mumin). Nous proposons des résultats de base pour deux tâches de classification de nœuds liées à la véracité d’une affirmation dans un contexte de médias sociaux, et démontrons que ces tâches sont particulièrement difficiles, avec un score F1 moyen maximal de 62,55 % et 61,45 % respectivement pour les deux tâches. L’écosystème MuMiN est disponible à l’adresse suivante : https://mumin-dataset.github.io/, incluant les données, la documentation, des tutoriels et des classements (leaderboards).

MuMiN : Un ensemble de données à grande échelle, multilingue et multimodal, vérifié par des faits, sur les réseaux sociaux de désinformation | Articles de recherche récents | HyperAI