RICo : Communautés idéologiques de Reddit
L’objectif principal de notre recherche est d’acquérir une compréhension approfondie de la relation entre l’usage du langage au sein de différentes communautés et la formulation des récits idéologiques. Nous nous concentrons particulièrement sur l’utilisation de techniques de traitement automatique du langage (Natural Language Processing, NLP) afin d’identifier les récits sous-jacents dans le langage codé ou implicite employé par des communautés non conformes associées à la violence ciblée. Des études antérieures se sont attelées à la détection de l’appartenance idéologique à l’aide d’enquêtes, d’études utilisateurs et d’un nombre limité d’analyses basées sur le contenu d’articles textuels, lesquelles nécessitent encore une étiquetage manuel des données. Des travaux antérieurs ont abordé le problème de l’étiquetage en utilisant des sous-références idéologiques (r/Liberal et r/Conservative pour les classes libérale et conservatrice), afin d’étiqueter les articles partagés sur ces plateformes selon leurs idéologies respectives, bien que sur un ensemble de données limité.S’appuyant sur ces travaux antérieurs, nous utilisons les idéologies des sous-références pour catégoriser les articles partagés. En plus des classes conservatrices et libérales, nous introduisons une nouvelle catégorie appelée « Restreint », qui englobe les articles textuels partagés dans des sous-références restreintes, privées ou bannies, telles que r/TheDonald. La catégorie « Restreint » regroupe les publications liées à la violence, indépendamment de leur appartenance idéologique conservatrice ou libérale. Par ailleurs, nous enrichissons notre ensemble de données avec des articles provenant de sous-références auto-désignées, telles que r/progressive pour la classe libérale et r/askaconservative pour la classe conservatrice. Cela donne lieu à un ensemble de données élargi comprenant 377 144 articles textuels, répartis en 72 488 articles libéraux, 79 573 conservateurs et 225 083 articles de la catégorie « Restreint ». Notre objectif est d’analyser les variations linguistiques au sein des différentes communautés idéologiques, d’étudier la pertinence des mots-clés pour l’étiquetage des orientations des articles, notamment dans des cas non vus (922 522 articles textuels), et d’approfondir l’analyse des communautés radicalisées, en menant une interprétation rigoureuse et exhaustive des résultats.