HyperAIHyperAI
il y a 8 jours

Détection de l'hostilité en hindi en s'appuyant sur des modèles linguistiques pré-entraînés

Ojasv Kamal, Adarsh Kumar, Tejas Vaidhya
Détection de l'hostilité en hindi en s'appuyant sur des modèles linguistiques pré-entraînés
Résumé

Le contenu hostile sur les plateformes sociales ne cesse d’augmenter. Cela a rendu nécessaire le développement de méthodes efficaces pour détecter ces contenus afin de pouvoir intervenir de manière appropriée. Bien que de nombreux travaux aient été menés récemment dans la langue anglaise pour résoudre le problème du contenu hostile en ligne, des recherches similaires sur les langues indiennes restent rares. Ce papier présente une approche fondée sur le transfert d’apprentissage pour classifier les publications provenant de médias sociaux (tels que Twitter, Facebook, etc.) rédigées en hindi, selon l’écriture devanagari, en catégories « hostile » ou « non hostile ». Les publications classées comme hostiles sont ensuite analysées afin de déterminer s’il s’agit de contenu haineux, de désinformation, de diffamation ou d’offensif. Notre méthode exploite des modèles pré-entraînés basés sur l’attention, fine-tunés sur des données en hindi, avec la tâche « hostile/non hostile » comme tâche auxiliaire, et fusionne leurs caractéristiques pour des classifications ultérieures plus précises. Grâce à cette approche, nous avons établi un modèle robuste et cohérent, sans recourir à l’ensemblage ni à des pré-traitements complexes. Les résultats de notre méthode ont été présentés dans le cadre de la tâche partagée CONSTRAINT-2021 sur la détection des publications hostiles, où notre modèle s’est distingué avec une troisième place au classement selon le score F1 finement granulé pondéré.

Détection de l'hostilité en hindi en s'appuyant sur des modèles linguistiques pré-entraînés | Articles de recherche récents | HyperAI