HyperAIHyperAI
منذ 2 أشهر

BioRED: مجموعة بيانات غنية لاستخراج العلاقات البيومédية

Ling Luo; Po-Ting Lai; Chih-Hsuan Wei; Cecilia N Arighi; Zhiyong Lu
BioRED: مجموعة بيانات غنية لاستخراج العلاقات البيومédية
الملخص

استخراج العلاقات الآلي (RE) من الأدبيات البيولوجية الطبية مهم للغاية للكثير من تطبيقات التنقيب النصي في كل من البيئات البحثية والعملية. ومع ذلك، فإن معظم مجموعات البيانات المعيارية الحالية لـ RE البيولوجية الطبية تركز فقط على علاقات من نوع واحد (مثل التفاعلات البروتين-بروتين) على مستوى الجملة، مما يحد بشكل كبير من تطوير أنظمة RE في مجال البيولوجيا الطبية. في هذا العمل، نقوم أولاً بمراجعة مجموعات البيانات الشائعة للاستخراج الآلي للعناصر المسماة (NER) وـ RE. ثم نقدم BioRED، وهي أول مكتبة بيانات بيولوجية طبية RE تحتوي على أنواع متعددة من العناصر (مثل الجين/البروتين، المرض، الكيميائي) وأزواج العلاقات (مثل الجين-مرض؛ كيميائي-كيميائي) على مستوى الوثيقة، باستخدام مجموعة من 600 ملخص في PubMed. بالإضافة إلى ذلك، قمنا بتسمية كل علاقة بأنها تصف إما اكتشافًا جديدًا أو معرفة خلفية معروفة سابقًا، مما يمكن الخوارزميات الآلية من التمييز بين المعلومات الجديدة والمعلومات الخلفية. قمنا بتقييم فائدة BioRED عبر اختبار عدة طرق رائدة حاليًا، بما في ذلك النماذج المستندة إلى BERT، في مهام NER و RE. تظهر نتائجنا أنه بينما يمكن للطرق الحالية تحقيق أداء عالٍ في مهمة NER (بمعدل F بلغ 89.3%)، هناك مجال كبير للتحسين في مهمة RE، خاصة عند استخراج العلاقات الجديدة (بمعدل F بلغ 47.7%). كما أظهرت تجاربنا أيضًا أن مثل هذه المجموعة الغنية بالبيانات يمكنها تسهيل بنجاح تطوير أنظمة RE أكثر دقة وكفاءة ومتانة لعلم الأحياء الطبي. يتم توفير مجموعة بيانات BioRED وإرشادات التسمية بشكل مجاني على الرابط https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/.

BioRED: مجموعة بيانات غنية لاستخراج العلاقات البيومédية | أحدث الأوراق البحثية | HyperAI