Un cadre hybride piloté par une heuristique pour la détection des fausses nouvelles liées au COVID-19

L'importance des réseaux sociaux a considérablement augmenté au cours des dernières décennies, car ils permettent aux individus, même issus des régions les plus reculées du monde, de rester connectés. Pendant la pandémie de la maladie à coronavirus (COVID-19), les réseaux sociaux sont devenus plus pertinents et plus largement utilisés que jamais, entraînant en parallèle une recrudescence de la diffusion de fausses informations et de tweets nécessitant une attention immédiate. Dans ce travail, nous présentons notre système de détection de fausses nouvelles, conçu pour identifier automatiquement si un tweet lié à la COVID-19 est « réel » ou « faux », dans le cadre du défi CONSTRAINT COVID19 Fake News Detection en anglais. Nous avons mis en œuvre un modèle ensembliste basé sur des modèles pré-entraînés, ce qui nous a permis d’obtenir une position conjointe au 8e rang du classement. Nous avons atteint un score F1 de 0,9831, contre un score maximal de 0,9869. À l’issue de la compétition, nous avons pu améliorer de manière significative notre système en intégrant un nouvel algorithme heuristique fondé sur les pseudos d’utilisateurs (username handles) et les domaines des liens présents dans les tweets, atteignant ainsi un score F1 de 0,9883 et établissant des résultats parmi les meilleurs (state-of-the-art) sur l’ensemble de données fourni.