Évaluation de l'efficacité du Réseau de Capsules dans la classification des commentaires toxiques en utilisant des embeddings pré-entraînés BERT
Les grands modèles linguistiques (LLM) ont suscité un intérêt considérable dans les domaines de la compréhension du langage naturel (NLU) et de la génération de langage naturel (NLG) depuis leur introduction. En revanche, le legs des réseaux de neurones à capsules (CapsNet) semble avoir été largement oublié au milieu de cet engouement. L’objectif de ce projet est de relancer l’intérêt pour les CapsNet en rouvrant des études auparavant fermées et en menant une nouvelle recherche sur leur potentiel. Nous présentons une étude dans laquelle les CapsNet sont utilisées pour classifier du texte toxique en exploitant des embeddings pré-entraînés BERT (bert-base-uncased) sur un grand jeu de données multilingue. Dans cette expérience, les CapsNet ont été chargées de catégoriser des textes toxiques. En comparant les performances des CapsNet à celles d'autres architectures, telles que DistilBERT, les réseaux de neurones classiques (VNN) et les réseaux de neurones convolutionnels (CNN), nous avons atteint une précision de 90,44 %. Ce résultat met en évidence les avantages des CapsNet sur les données textuelles et suggère de nouvelles voies pour améliorer leurs performances afin de les rendre comparables à celles de DistilBERT et d'autres architectures réduites.