Réexaminer la détection contextuelle de la toxicité dans les conversations

Comprendre la toxicité dans les conversations des utilisateurs est indéniablement un problème important. Traiter les cas de toxicité « cachés » ou implicites est particulièrement difficile et nécessite un contexte. Très peu d'études antérieures ont analysé l'influence du contexte conversationnel sur la perception humaine ou sur les modèles de détection automatisée. Nous nous penchons plus en profondeur sur ces deux aspects. Nous commençons par analyser les jeux de données existants avec un contexte et concluons que, en général, l'étiquetage de la toxicité par les humains est influencé par la structure conversationnelle, la polarité et le sujet du contexte. Nous proposons ensuite d'intégrer ces constatations dans les modèles de détection computationnelle en introduisant et évaluant (a) des architectures neuronales pour la détection de la toxicité contextuelle qui prennent en compte la structure conversationnelle, et (b) des stratégies d'augmentation de données qui peuvent aider à modéliser la détection de la toxicité contextuelle. Nos résultats ont montré le potentiel encourageant des architectures neuronales conscientes de la structure conversationnelle. Nous avons également démontré que ces modèles peuvent bénéficier de données synthétiques, en particulier dans le domaine des médias sociaux.