HyperAIHyperAI
منذ 2 أشهر

التعرف على الكيانات المسماة البيوطبية على نطاق واسع

Veysel Kocaman; David Talby
التعرف على الكيانات المسماة البيوطبية على نطاق واسع
الملخص

التعرف على الكيانات المسماة (NER) هو مهمة معالجة اللغة الطبيعية ذات التطبيق الواسع وجزء أساسي من إجابات الأسئلة، نمذجة الموضوعات، استرجاع المعلومات، وغيرها. في المجال الطبي، يلعب التعرف على الكيانات المسماة دورًا حاسمًا من خلال استخراج القطع المهمة من الملاحظات والتقارير السريرية، والتي يتم تغذيتها بعد ذلك إلى مهام لاحقة مثل اكتشاف حالة الإدعاء، حل الكيانات، استخراج العلاقات، وإزالة التعريف. بإعادة تنفيذ هندسة التعلم العميق Bi-LSTM-CNN-Char فوق Apache Spark، نقدم نموذجًا قابلاً للتدريب يمكنه تحقيق نتائج جديدة رائدة في سبعة مقاييس بيولوجية طبية عامة دون استخدام تمثيلات سياقية ثقيلة مثل BERT. وهذا يشمل تحسين BC4CHEMD إلى 93.72٪ (زيادة بنسبة 4.1٪)، Species800 إلى 80.91٪ (زيادة بنسبة 4.6٪)، وجامعة جنوب كاليفورنيا لمعالجة اللغة الطبيعية والتحليل البيولوجي (JNLPBA) إلى 81.29٪ (زيادة بنسبة 5.2٪). بالإضافة إلى ذلك، فإن هذا النموذج متاح بشكل مجاني ضمن قاعدة كود جاهزة للإنتاج كجزء من مكتبة Spark NLP المفتوحة المصدر؛ يمكن توسيعه لتدريب واستدلال في أي مجموعة تشغيلية لـ Spark؛ يتمتع بدعم GPU ومكتبات بلغات البرمجة الشائعة مثل Python و R و Scala و Java؛ ويمكن توسيعه لدعم اللغات البشرية الأخرى دون الحاجة إلى تغيير الرمز البرمجي.

التعرف على الكيانات المسماة البيوطبية على نطاق واسع | أحدث الأوراق البحثية | HyperAI