« Mensonge, Mensonge, Pantalon en Feu » : Un Nouveau Jeu de Données de Référence pour la Détection des Fausses Nouvelles

La détection automatique des fausses informations est un problème complexe dans le domaine de la détection de la tromperie, et elle a d'importantes répercussions politiques et sociales dans le monde réel. Cependant, les approches statistiques pour lutter contre les fausses informations sont considérablement limitées par le manque de jeux de données de référence étiquetés. Dans cet article, nous présentons Liar : un nouveau jeu de données publiquement disponible pour la détection des fausses informations. Nous avons collecté une décennie d'énoncés courts (12 800 au total) étiquetés manuellement dans divers contextes à partir du site PolitiFact.com, qui fournit un rapport d'analyse détaillé et des liens vers les documents sources pour chaque cas. Ce jeu de données peut également être utilisé pour la recherche en vérification des faits. Il convient de noter que ce nouveau jeu de données est d'un ordre de grandeur plus important que les précédents jeux de données publics les plus importants du même type. Sur le plan empirique, nous examinons la détection automatique des fausses informations basée sur des modèles linguistiques superficiels. Nous avons conçu un réseau neuronal convolutif hybride novateur pour intégrer les méta-données avec le texte. Nous montrons que cette approche hybride peut améliorer un modèle d'apprentissage profond basé uniquement sur le texte.