il y a 17 jours

BERTweet : un modèle linguistique pré-entraîné pour les tweets en anglais

Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen

Résumé

Nous présentons BERTweet, le premier modèle linguistique pré-entraîné à grande échelle public destiné aux tweets en anglais. Notre modèle BERTweet, qui partage la même architecture que BERT-base (Devlin et al., 2019), est entraîné à l’aide de la procédure de pré-entraînement RoBERTa (Liu et al., 2019). Les expériences montrent que BERTweet surpasser des modèles de référence performants tels que RoBERTa-base et XLM-R-base (Conneau et al., 2020), obtenant de meilleurs résultats que les modèles précédents de l’état de l’art sur trois tâches NLP appliquées aux tweets : l’analyse morphosyntaxique (part-of-speech tagging), la reconnaissance d’entités nommées (named-entity recognition) et la classification de texte. Nous mettons BERTweet à disposition sous licence MIT afin de favoriser les recherches futures et les applications sur les données de tweets. BERTweet est disponible à l’adresse suivante : https://github.com/VinAIResearch/BERTweet