HyperAIHyperAI
il y a 9 jours

AWARE : Jeu de données d'analyse de sentiment basée sur les aspects pour les avis d'applications mobiles, destiné à l'extraction de besoins

{Malak Baslyman, Hamoud Aljamaan, Nouf Alturaief}
Résumé

Le marché des applications pour smartphones connaît une croissance rapide, ce qui pousse les éditeurs à améliorer continuellement leurs produits afin de rester compétitifs. L’analyse des retours utilisateurs constitue un levier clé pour ces améliorations, car elle permet aux parties prenantes d’obtenir une compréhension approfondie des succès et des échecs de leurs propres produits, ainsi que ceux de leurs concurrents. Cela permet de formuler des exigences fondées sur des preuves et d’améliorer les activités d’élaboration des exigences. L’analyse des sentiments basée sur les aspects (Aspect-Based Sentiment Analysis, ABSA) est une branche de l’analyse des sentiments qui identifie les aspects mentionnés dans un texte et leur attribue une orientation émotionnelle. La prise en compte des aspects permet une compréhension plus précise des opinions et surmonte les limites liées à l’analyse sentimentale globale. Toutefois, la tâche d’ABSA n’a pas encore été explorée dans le contexte des avis d’applications mobiles ni dans le cadre de l’élaboration des exigences.Dans cet article, nous introduisons AWARE, un ensemble de données de référence comprenant 11 323 avis d’applications annotés en termes d’aspects, de catégories d’aspects et d’orientation sentimentale. Les avis ont été collectés dans trois domaines : productivité, réseaux sociaux et jeux. Nous avons dérivé les catégories d’aspects pour chaque domaine à l’aide d’une analyse de contenu, puis validé celles-ci auprès d’experts du domaine en termes d’importance, de complétude, de chevauchement et de granularité. Les annotations des catégories d’aspects et des polarités sentimentales ont été réalisées via une approche de crowd-sourcing, suivie de procédures de contrôle qualité. Les termes d’aspects ont été annotés à l’aide d’une méthode partiellement automatisée basée sur le traitement automatique du langage naturel (NLP), puis validés par des annotateurs, ce qui a permis d’obtenir un taux de précision de 98 % pour les termes d’aspects. Enfin, nous avons développé des modèles de base (baselines) d’apprentissage automatique pour trois tâches : (i) l’extraction de termes d’aspects à l’aide d’un taggeur morphosyntaxique (POS tagger), (ii) la classification des catégories d’aspects, et (iii) la classification du sentiment associé à chaque aspect, en utilisant à la fois des classifieurs à machines à vecteurs de support (SVM) et des perceptrons multicouches (MLP).