الكشف الكيميائي والفهرسة في مقالات نص كامل من PubMed باستخدام طرق التعلم العميق والقواعدية
تحديد المواد الكيميائية في الأدبيات العلمية الحيوية يعد مهمة أساسية في أبحاث تطوير الأدوية. وقد ساهمت مسابقة BioCreative NLM-Chem في تعزيز تطوير أنظمة آلية قادرة على تحديد المواد الكيميائية في المقالات الكاملة واتخاذ قرار بشأن المفاهيم الكيميائية ذات الصلة التي ينبغي فهرستها. يُقدّم هذا العمل مشاركة فريق BIT.UA التابع لجامعة أفيرو، حيث نقترح نموذجًا آليًا مكوّنًا من ثلاث مراحل يعالج بشكل منفصل: (أ) كشف الإشارات الكيميائية، (ب) توحيد الكيانات، و(ج) الفهرسة. وقد اعتمدنا حلًّا قائماً على التعلم العميق باستخدام نسخة معدلة من نموذج BERT مخصصة للعلوم الحيوية لتحديد المواد الكيميائية. أما في عملية التوحيد، فقد استخدمنا نهجًا قائمًا على القواعد، بالإضافة إلى نسخة هجينة تستخدم آلية استرجاع كثيفة. وبالمثل، في مجال الفهرسة، اتبعنا نهجين مختلفين: الأول قائم على القواعد، والثاني يستند إلى طريقة TF-IDF. وقد حققنا أفضل النتائج الرسمية في الثلاثة مهام الفرعية، حيث تفوقت نتائجنا بشكل مستمر على الوسيط الرسمي والمعيار المرجعي، بمقاييس F1 تبلغ على التوالي 0.8454 و0.8136 و0.4664.