تمثيل BERT مخصص للنطاق لتحديد الكيانات المعرفة في بروتوكولات المختبر

النماذج المُراقبة التي تم تدريبها لتنبؤ الخصائص من خلال التمثيلات قد حققت دقة عالية في مجموعة متنوعة من المهام. على سبيل المثال، تُظهر عائلة BERT أداءً متميزًا بشكل استثنائي في المهام اللاحقة، بدءًا من تصنيف العناصر المعرفية (NER) وامتدادًا إلى طيف واسع من المهام اللغوية الأخرى. لكن المفردات المستخدمة في المجال الطبي تحتوي على عدد كبير من الرموز (tokens) التي تُستخدم فقط في الصناعة الطبية، مثل أسماء الأمراض المختلفة، والأجهزة، والكائنات الحية، والأدوية، وغيرها، ما يجعل من الصعب على النموذج التقليدي BERT إنشاء تمثيلات سياقية فعّالة. في هذه الورقة، سنُقدّم نظامًا مبنيًا على Bio-BERT لتصنيف العناصر المعرفية (Named Entity Tagging). أظهرت النتائج التجريبية أن نموذجنا حقق تحسينات كبيرة مقارنة بالنموذج الأساسي، واحتل المركز الرابع في مقياس F1، والمركز الأول كأفضل مُنافس في مقياس الاستدعاء (Recall)، بفارق 2.21 فقط في مقياس F1 عن النموذج الأفضل.