HyperAIHyperAI
il y a 11 jours

Annotation du corpus Tweebank pour la reconnaissance d'entités nommées et construction de modèles NLP pour l'analyse des médias sociaux

Hang Jiang, Yining Hua, Doug Beeferman, Deb Roy
Annotation du corpus Tweebank pour la reconnaissance d'entités nommées et construction de modèles NLP pour l'analyse des médias sociaux
Résumé

Les données provenant des réseaux sociaux, telles que les messages Twitter (« tweets »), posent un défi particulier aux systèmes de traitement automatique du langage naturel (NLP) en raison de leur nature bruyante, concise et familière. Des tâches telles que la reconnaissance d’entités nommées (Named Entity Recognition, NER) et l’analyse syntaxique nécessitent des données d’entraînement fortement adaptées au domaine pour assurer de bonnes performances. À ce jour, aucune base de données complète n’est disponible pour l’entraînement simultané de modèles de NER et d’analyse syntaxique (par exemple, étiquetage morpho-syntaxique, analyse de dépendances) sur les tweets. Bien qu’il existe certaines bases de données annotées publiques pour les tweets, elles sont conçues uniquement pour des tâches individuelles. Dans cette étude, nous avons pour objectif de créer Tweebank-NER, une base de données anglaise pour la NER basée sur Tweebank V2 (TB2), d’entraîner des modèles d’NLP de pointe (state-of-the-art, SOTA) sur TB2, et de publier une pipeline NLP appelée Twitter-Stanza. Nous avons annoté les entités nommées dans TB2 à l’aide d’Amazon Mechanical Turk et mesuré la qualité de nos annotations. Nous avons entraîné la pipeline Stanza sur TB2 et l’avons comparée à d’autres cadres NLP (par exemple, FLAIR, spaCy) ainsi qu’à des modèles basés sur les transformateurs. Le tokeniseur et le lemmatiseur Stanza atteignent des performances SOTA sur TB2, tandis que le taggeur NER, le taggeur d’articles grammaticaux (POS) et l’analyseur de dépendances de Stanza affichent des performances compétitives par rapport aux modèles non basés sur les transformateurs. Les modèles basés sur les transformateurs établissent une base solide sur Tweebank-NER et atteignent de nouvelles performances SOTA en étiquetage POS et en analyse de dépendances sur TB2. Nous mettons à disposition la base de données, ainsi que la pipeline Stanza et des modèles basés sur BERTweet « prêts à l’emploi » pour les futures recherches en NLP sur les tweets. Le code source, les données et les modèles pré-entraînés sont accessibles à l’adresse suivante : \url{https://github.com/social-machines/TweebankNLP}.