HyperAIHyperAI
il y a 17 jours

TweetEval : Benchmarque unifiée et évaluation comparative pour la classification des tweets

Francesco Barbieri, Jose Camacho-Collados, Leonardo Neves, Luis Espinosa-Anke
TweetEval : Benchmarque unifiée et évaluation comparative pour la classification des tweets
Résumé

Le paysage expérimental en traitement du langage naturel pour les réseaux sociaux est trop fragmenté. Chaque année, de nouvelles tâches partagées et de nouveaux jeux de données sont proposés, allant des classiques comme l'analyse de sentiment à la détection de l'ironie ou la prédiction d'emoji. En conséquence, il n'est pas clair quel est l'état de l'art actuel, faute d'un protocole d'évaluation standardisé et d'un ensemble solide de modèles de base entraînés sur des données spécifiques à ce domaine. Dans cet article, nous proposons un nouveau cadre d'évaluation (TweetEval), composé de sept tâches de classification spécifiques à Twitter, hétérogènes entre elles. Nous fournissons également un ensemble robuste de modèles de base comme point de départ, et comparons différentes stratégies de pré-entraînement des modèles de langage. Nos expériences initiales montrent l'efficacité de partir de modèles pré-entraînés génériques existants, puis de poursuivre leur entraînement sur des corpus Twitter.