
摘要
我们提出 BERTweet,这是首个面向英文推文(English Tweets)的大规模预训练语言模型。BERTweet 的架构与 BERT-base(Devlin 等,2019)保持一致,并采用 RoBERTa 的预训练方法(Liu 等,2019)进行训练。实验结果表明,BERTweet 在三项推文自然语言处理任务——词性标注(Part-of-speech tagging)、命名实体识别(Named-entity recognition)和文本分类(text classification)上,均显著优于强基准模型 RoBERTa-base 和 XLM-R-base(Conneau 等,2020),性能超越此前的最先进模型。为促进未来在推文数据上的研究与应用,我们已将 BERTweet 在 MIT 许可证下开源,其项目地址为:https://github.com/VinAIResearch/BERTweet。