HyperAIHyperAI
il y a 2 mois

Utilisation de millions d'occurrences d'emojis pour apprendre des représentations dans tous les domaines afin de détecter la sentiment, l'émotion et le sarcasme

Bjarke Felbo; Alan Mislove; Anders Søgaard; Iyad Rahwan; Sune Lehmann
Utilisation de millions d'occurrences d'emojis pour apprendre des représentations dans tous les domaines afin de détecter la sentiment, l'émotion et le sarcasme
Résumé

Les tâches de traitement du langage naturel (NLP) sont souvent limitées par la rareté des données annotées manuellement. Dans l'analyse de sentiment sur les réseaux sociaux et dans des tâches connexes, les chercheurs ont donc utilisé des émoticônes binarisées et des hashtags spécifiques comme formes de supervision distante. Notre article montre que, en étendant la supervision distante à un ensemble plus diversifié d'étiquettes bruyantes, les modèles peuvent apprendre des représentations plus riches. Grâce à la prédiction d'émoticônes sur un jeu de données de 1,246 milliard de tweets contenant l'un des 64 émoticônes courants, nous obtenons des performances de pointe sur 8 jeux de données de référence dans le domaine de la détection du sentiment, de l'émotion et du sarcasme en utilisant un seul modèle préentraîné. Nos analyses confirment que la diversité de nos étiquettes émotionnelles entraîne une amélioration des performances par rapport aux approches précédentes de supervision distante.