نهج قائمة على الانتباه يعتمد على BiLSTM-CRF للتعرف على الكيانات الاسمية الكيميائية على مستوى المستند
الدافع: في الأبحاث الطبية الحيوية، يُعدّ الكيميائي كيانًا مهمًا، وتمثيل الكيانات الكيميائية (NER) مهمة أساسية في مجال استخراج المعلومات الطبية الحيوية. ومع ذلك، تعتمد معظم الطرق الشائعة لتمثيل الكيانات الكيميائية على التعلم الآلي التقليدي، وتعتمد أداؤها بشكل كبير على هندسة الميزات. علاوةً على ذلك، تُعدّ هذه الطرق ذات مستوى الجملة، وتُعاني من مشكلة عدم اتساق التسمية. النتائج: في هذه الورقة، نقترح منهجية قائمة على الشبكات العصبية، وهي نموذج الذاكرة الطويلة القصيرة ذات الاتجاهين المدعوم بالانتباه مع طبقة حقل عشوائي شرطي (Att-BiLSTM-CRF)، لتمثيل الكيانات الكيميائية على مستوى المستند. يُستفيد هذا النموذج من المعلومات العالمية على مستوى المستند التي يحصل عليها عبر آلية الانتباه لضمان اتساق التسمية عبر عدة مرات من نفس الرمز (الكلمة) داخل المستند. ويحقق أداءً أفضل بحد أدنى من هندسة الميزات مقارنةً بطرق الحالة الحالية على مجموعة بيانات BioCreative IV الخاصة بتمييز مركبات كيميائية وأسماء أدوية (CHEMDNER) وبيانات مهمة BioCreative V الخاصة بالعلاقة بين الكيميائيات والأمراض (CDR) (حيث بلغت قيم F 91.14% و92.57% على التوالي). التوفر والتنفيذ: يمكن الوصول إلى البيانات والكود من خلال الرابط التالي: https://github.com/lingluodlut/Att-ChemdNER. للاتصال: [email protected] أو [email protected]. المعلومات الإضافية: تتوفر البيانات الإضافية على موقع Bioinformatics الإلكتروني.