منذ 2 أشهر

SciBERT: نموذج لغوي مُدرب مسبقًا للنصوص العلمية

Iz Beltagy; Kyle Lo; Arman Cohan

الملخص

الحصول على بيانات مُشَرَّحة على نطاق واسع لمهمات معالجة اللغة الطبيعية في المجال العلمي هو أمرٌ صعب ومكلف. لمعالجة نقص البيانات العلمية ذات الجودة العالية والحجم الكبير، نطلق SciBERT، وهو نموذج لغوي مُدَرَّب مسبقًا يستند إلى BERT (ديفلين وآخرون، 2018). يستفيد SciBERT من التدريب المسبق غير المشرف على مكتبة كبيرة متعددة المجالات من النشرات العلمية لتحسين الأداء في مهمات معالجة اللغة الطبيعية العلمية اللاحقة. قمنا بتقييمه على مجموعة من المهمات تشمل تصنيف الجمل وتسمية التسلسل وتحليل الارتباط، باستخدام مجموعات بيانات من مجالات علمية مختلفة. أظهرنا تحسينات إحصائية ذات دلالة على BERT وحققنا نتائجًا جديدة رائدة في العديد من هذه المهمات. يمكن الوصول إلى الكود والنماذج المُدَرَّبة مسبقًا عبر الرابط: https://github.com/allenai/scibert/.