„Lügner, Lügner, Hose in Flammen“: Ein neuer Benchmark-Datensatz für die Erkennung von Falschinformationen

Die automatische Erkennung von Fake News ist ein anspruchsvolles Problem im Bereich der Täuschungserkennung und hat erhebliche politische und gesellschaftliche Auswirkungen in der Realität. Allerdings sind statistische Ansätze zur Bekämpfung von Fake News durch den Mangel an etikettierten Benchmark-Datensätzen stark eingeschränkt. In dieser Arbeit stellen wir Liar vor: einen neuen, öffentlich zugänglichen Datensatz für die Erkennung von Fake News. Wir haben über einen Zeitraum von zehn Jahren 12.800 manuell etikettierte kurze Aussagen aus verschiedenen Kontexten von PolitiFact.com gesammelt, das für jeden Fall detaillierte Analyseberichte und Links zu Quelldokumenten bereitstellt. Dieser Datensatz kann auch für Fact-Checking-Forschungen genutzt werden. Bemerkenswerterweise ist dieser neue Datensatz um eine Größenordnung größer als bisherige größte öffentliche Fake-News-Datensätze ähnlicher Art. Empirisch untersuchen wir die automatische Erkennung von Fake News basierend auf oberflächlichen sprachlichen Mustern. Wir haben ein neues, hybrides Faltungsneuronales Netzwerk (Convolutional Neural Network) entwickelt, um Metadaten mit Text zu kombinieren. Wir zeigen, dass dieser hybride Ansatz das Leistungsfähigkeitsniveau eines rein textbasierten Deep-Learning-Modells verbessern kann.