تحسين التعرف على الكيانات المحددة في المجال الطبي باستخدام المعلومات التركيبية
تمثّل مهمة التعرف على الكيانات المحددة في المجال الطبي الحيوي (BioNER) مهمةً مهمةً لفهم النصوص الطبية الحيوية، والتي قد تكون صعبة بسبب نقص البيانات التدريبية المُوسَّعة والمتزنة، بالإضافة إلى نقص المعرفة الخاصة بالحقل. ولحل هذه التحديات، بالإضافة إلى استخدام مشغلات قوية (مثل biLSTM وBioBERT)، يمكن اعتماد طريقة محتملة هي الاستفادة من معرفة إضافية سهلة الحصول عليها. أظهرت الدراسات السابقة أن المعلومات النحوية التي تم معالجتها تلقائيًا يمكن أن تكون موردًا مفيدًا لتحسين أداء النموذج، ولكن نهجها السابق محدود بالاندماج المباشر لتمثيلات المدخلات النحوية مع تمثيلات الكلمات المدخلة. ونتيجة لذلك، يتم استخدام هذه المعلومات النحوية بطريقة غير مرنة، وقد يؤدي وجود معلومات غير دقيقة إلى تدهور أداء النموذج. في هذا البحث، نقترح نموذج BIOKMNER، وهو نموذج لـ BioNER في النصوص الطبية الحيوية، يعتمد على شبكات الذاكرة ذات القيم الأساسية (KVMN) لدمج المعلومات النحوية التي تم معالجتها تلقائيًا. وقد قمنا بتقييم BIOKMNER على ستة مجموعات بيانات طبية حيوية باللغة الإنجليزية، حيث أظهرت نتائجنا باستخدام KVMN تفوقها على النموذج الأساسي القوي (أي BioBERT) من الدراسة السابقة في جميع مجموعات البيانات. بشكل خاص، بلغت قيم F1 للنموذج الأفضل لدينا 85.29% على BC2GM، و77.83% على JNLPBA، و94.22% على BC5CDR-chemical، و90.08% على NCBI-disease، و89.24% على LINNAEUS، و76.33% على Species-800، حيث تم تحقيق أفضل الأداء الممكن (state-of-the-art) في أربع من هذه المجموعات (أي BC2GM، BC5CDR-chemical، NCBI-disease، وSpecies-800). وتُظهر النتائج التجريبية على ستة مجموعات بيانات معيارية باللغة الإنجليزية أن المعلومات النحوية التي تم معالجتها تلقائيًا يمكن أن تكون موردًا مفيدًا لـ BioNER، وأن طريقة عملنا باستخدام KVMN قادرة على استغلال هذه المعلومات بشكل مناسب لتحسين أداء النموذج.