HyperAIHyperAI
منذ 2 أشهر

SciBERT: نموذج لغوي مُدرب مسبقًا للنصوص العلمية

Iz Beltagy; Kyle Lo; Arman Cohan
SciBERT: نموذج لغوي مُدرب مسبقًا للنصوص العلمية
الملخص

الحصول على بيانات مُشَرَّحة على نطاق واسع لمهمات معالجة اللغة الطبيعية في المجال العلمي هو أمرٌ صعب ومكلف. لمعالجة نقص البيانات العلمية ذات الجودة العالية والحجم الكبير، نطلق SciBERT، وهو نموذج لغوي مُدَرَّب مسبقًا يستند إلى BERT (ديفلين وآخرون، 2018). يستفيد SciBERT من التدريب المسبق غير المشرف على مكتبة كبيرة متعددة المجالات من النشرات العلمية لتحسين الأداء في مهمات معالجة اللغة الطبيعية العلمية اللاحقة. قمنا بتقييمه على مجموعة من المهمات تشمل تصنيف الجمل وتسمية التسلسل وتحليل الارتباط، باستخدام مجموعات بيانات من مجالات علمية مختلفة. أظهرنا تحسينات إحصائية ذات دلالة على BERT وحققنا نتائجًا جديدة رائدة في العديد من هذه المهمات. يمكن الوصول إلى الكود والنماذج المُدَرَّبة مسبقًا عبر الرابط: https://github.com/allenai/scibert/.

SciBERT: نموذج لغوي مُدرب مسبقًا للنصوص العلمية | أحدث الأوراق البحثية | HyperAI