Investiguer les techniques d'apprentissage profond et d'apprentissage superficiel pour la classification des émotions dans les textes persans courts

L’identification des émotions dans les textes courts des langues à faible ressource constitue un défi majeur, nécessitant des cadres spécialisés et des techniques d’intelligence computationnelle. Ce papier présente une exploration approfondie des méthodes d’apprentissage superficiel et profond pour la détection des émotions dans des textes persans courts. Les méthodes d’apprentissage superficiel s’appuient sur l’extraction de caractéristiques et la réduction de dimension pour améliorer la précision de classification. À l’inverse, les méthodes d’apprentissage profond exploitent l’apprentissage transféré et les embeddings de mots, en particulier BERT, afin d’obtenir une haute précision de classification. Un jeu de données persan, intitulé « ShortPersianEmo », est introduit afin d’évaluer les méthodes proposées ; il comprend 5 472 textes persans courts variés, étiquetés selon cinq classes émotionnelles principales. Les résultats d’évaluation montrent que l’apprentissage transféré et les embeddings de texte basés sur BERT surpassent les approches alternatives en termes de précision de classification des textes persans courts. Le jeu de données de cette étude, ShortPersianEmo, sera mis à disposition publiquement en ligne à l’adresse suivante : https://github.com/vkiani/ShortPersianEmo.