التعرف الكيميائي والفهرسة في مقالات PubMed الكاملة باستخدام التعلم العميق والمناهج الاستنتاجية
تم جذب اهتمام واسع من قبل المجتمع العلمي الحيوي الطبي بتحديد المواد الكيميائية في المقالات، نظرًا لأهميتها في أبحاث تطوير الأدوية. وقد ركزت معظم الدراسات السابقة على ملخصات قواعد بيانات PubMed، ويتطلب استقصاء إضافي باستخدام النص الكامل للمقالات، نظرًا لاحتوائها على معلومات قيمة إضافية يجب استكشافها. وتساعد مهمة التصنيف اليدوية من قبل الخبراء لعناصر التصنيف الطبي (MeSH) في هذه المقالات الباحثين على العثور على المنشورات الأكثر صلة بأعمالهم الجارية. وقد دعمت مسار NLM-Chem في BioCreative VII تطوير أنظمة لتحديد المواد الكيميائية وتصنيفها في المقالات الكاملة من PubMed. وقد تضمن التعرف على المواد الكيميائية تحديد الإشارات إلى المواد الكيميائية وربطها بمعرفات MeSH فريدة. ويصف هذا المنشور نظام مشاركتنا في المسابقة، والتحسينات التي قمنا بها بعد انتهاء المسابقة. نقترح نموذجًا مكونًا من ثلاث مراحل، يقوم كل مرحلة بتنفيذ مهمة منفصلة: اكتشاف الإشارات الكيميائية، وتوحيد الكيانات، وتصنيفها. وفيما يتعلق بتحديد المواد الكيميائية، اعتمدنا حلًا قائماً على التعلم العميق يستخدم تمثيلات مُستندة إلى PubMedBERT ذات السياق، متبوعة بطبقة متعددة الطبقات (MLP) وطبقة تسمية حقل عشوائي شرطي (CRF). أما بالنسبة لنهج التوحيد، فقد استخدمنا تصفية قائمة مفردات تعتمد على قواعد متسلسلة (sieve-based)، تليها استراتيجية بحث مماثلة قائمة على التعلم العميق. وأخيرًا، في ما يخص التصنيف، طوّرنا قواعد لتحديد أكواد MeSH الأكثر صلة بكل مقال. وخلال المسابقة، حقق نظامنا أفضل النتائج الرسمية في مهام التوحيد والتصنيف، رغم الأداء الأقل في مهمة اكتشاف الإشارات الكيميائية. وفي المرحلة اللاحقة للمسابقة، قمنا بتحسين نتائجنا من خلال تطوير نموذج التعرف على الكيانات المميزة باستخدام تقنيات إضافية. وبلغ النظام النهائي نتائج بلغت 0.8731 و0.8275 و0.4849 على التوالي في مهام التعرف على المواد الكيميائية، والتوحيد، والتصنيف. ويتوفر الكود المصدري لإعادة إنتاج تجاربنا وتشغيل النموذج بشكل عام. رابط قاعدة البيانات: https://github.com/bioinformatics-ua/biocreativeVII_track2