17日前

BERTweet：英語ツイート向け事前学習言語モデル

Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen

要約

我々は、英語のツイート向けに設計された、初めての公開された大規模な事前学習済み言語モデル「BERTweet」を提案する。本モデルは、BERT-base（Devlin他, 2019）と同一のアーキテクチャを採用しており、RoBERTaの事前学習手順（Liu他, 2019）に基づいて学習されている。実験の結果、BERTweetは強力なベースラインモデルであるRoBERTa-baseおよびXLM-R-base（Conneau他, 2020）を上回り、3つのツイートNLPタスク—品詞タグ付け、固有表現抽出、テキスト分類—において、従来の最先端モデルを上回る性能を達成した。本研究では、今後のツイートデータに関する研究および応用を促進するため、BERTweetをMITライセンスの下で公開する。BERTweetのモデルおよび関連リソースは、https://github.com/VinAIResearch/BERTweet にて入手可能である。