HyperAIHyperAI
vor 15 Tagen

MuMiN: Ein großskaliges, mehrsprachiges, multimodales, faktengeprüftes Datenbank-Netzwerk für Falschinformationen

Dan Saattrup Nielsen, Ryan McConville
MuMiN: Ein großskaliges, mehrsprachiges, multimodales, faktengeprüftes Datenbank-Netzwerk für Falschinformationen
Abstract

Falschinformationen verbreiten sich zunehmend auf sozialen Medien und in Nachrichtenartikeln. Ihre Verbreitung hat ein derartiges Ausmaß erreicht, dass wir algorithmische Unterstützung mittels maschinellem Lernen benötigen, um derartigen Inhalt zu erkennen. Die Schulung solcher maschinell lernender Modelle erfordert Datensätze ausreichender Skalierbarkeit, Vielfalt und Qualität. In der Forschung zum automatischen Erkennen von Falschinformationen sind die verfügbaren Datensätze jedoch überwiegend einprachig, beinhalten eine begrenzte Anzahl an Modalitäten und sind weder ausreichend groß noch von ausreichender Qualität. Um diesem Problem zu begegnen, entwickeln wir ein System zur Datensammlung und -verknüpfung (MuMiN-trawl), um einen öffentlichen Graphen-Datensatz zu erstellen (MuMiN), der umfangreiche soziale Medien-Daten (Tweets, Antworten, Nutzer, Bilder, Artikel, Hashtags) enthält und sich über 21 Millionen Tweets aus 26.000 Twitter-Threads erstreckt. Jeder dieser Threads wurde semantisch mit 13.000 überprüften Behauptungen aus Dutzenden Themen, Ereignissen und Domänen verknüpft, und zwar in 41 verschiedenen Sprachen über mehr als ein Jahrzehnt hinweg. Der Datensatz steht als heterogener Graph über eine Python-Bibliothek (mumin) zur Verfügung. Wir präsentieren Baseline-Ergebnisse für zwei Knotenklassifikationsaufgaben im Zusammenhang mit der Wahrheitsgehalt von Behauptungen in sozialen Medien und zeigen, dass diese Aufgaben herausfordernd sind, wobei die höchsten Makro-Durchschnitts-F1-Scores bei 62,55 % und 61,45 % für die beiden Aufgaben liegen. Das MuMiN-Ökosystem ist unter https://mumin-dataset.github.io/ zugänglich und umfasst den Datensatz, Dokumentation, Tutorials sowie Leaderboards.

MuMiN: Ein großskaliges, mehrsprachiges, multimodales, faktengeprüftes Datenbank-Netzwerk für Falschinformationen | Neueste Forschungsarbeiten | HyperAI