Une évaluation empirique des modèles d’embedding de mots pour les tâches d’analyse de subjectivité
Il est un fait clairement établi que de bons résultats en classification dépendent fortement des techniques de représentation. La représentation du texte est une étape indispensable à accomplir avant toute tâche d'analyse de texte, car elle établit une base dont même les modèles avancés d'apprentissage automatique peinent à se départir. Ce papier vise à analyser de manière exhaustive et à évaluer quantitativement divers modèles de représentation du texte afin d’effectuer une analyse de subjectivité. Nous mettons en œuvre une large variété de modèles sur le jeu de données Cornell Subjectivity. Il est à noter que le modèle linguistique BERT obtient des résultats nettement supérieurs à ceux de tous les autres modèles, bien qu’il soit considérablement plus coûteux en termes de calcul. En affinant le modèle BERT, nous avons atteint des performances de pointe sur la tâche de subjectivité. Ce résultat ouvre de nombreuses nouvelles perspectives et pourrait potentiellement conduire au développement d’un modèle spécialisé, inspiré de BERT, dédié spécifiquement à l’analyse de subjectivité.