HyperAIHyperAI
منذ 17 أيام

BERTweet: نموذج لغوي مُدرّب مسبقًا للمنشورات الإنجليزية

Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen
BERTweet: نموذج لغوي مُدرّب مسبقًا للمنشورات الإنجليزية
الملخص

نقدّم نموذج BERTweet، أول نموذج لغوي مُدرّب مسبقًا على نطاق واسع باللغة الإنجليزية خاص بمنشورات تويتر. يتميّز نموذج BERTweet، الذي يمتلك نفس البنية المعمارية لنموذج BERT-base (Devlin et al., 2019)، بتدريبه باستخدام إجراء التدريب المسبق لنموذج RoBERTa (Liu et al., 2019). تُظهر التجارب أن BERTweet يتفوّق على النماذج القوية السابقة مثل RoBERTa-base وXLM-R-base (Conneau et al., 2020)، ويحقق أداءً أفضل من النماذج السابقة الأكثر تقدّمًا في ثلاث مهام لغوية تتعلق بمنشورات تويتر: تحديد الصفة النحوية (Part-of-speech tagging)، وتحديد الكيانات المُعرفة (Named-entity recognition)، وتصنيف النصوص. ونُطلق نموذج BERTweet تحت رخصة MIT لتسهيل الأبحاث والتطبيقات المستقبلية المتعلقة ببيانات تويتر. يمكن الوصول إلى نموذج BERTweet عبر الرابط التالي: https://github.com/VinAIResearch/BERTweet

BERTweet: نموذج لغوي مُدرّب مسبقًا للمنشورات الإنجليزية | أحدث الأوراق البحثية | HyperAI