Command Palette
Search for a command to run...
PubMedQA: مجموعة بيانات للإجابة على الأسئلة البحثية في مجال الطب الحيوي
PubMedQA: مجموعة بيانات للإجابة على الأسئلة البحثية في مجال الطب الحيوي
Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu
الملخص
نقدم مجموعة بيانات PubMedQA، وهي مجموعة جديدة لأسئلة الإجابة في المجال الطبي الحيوي، تم جمعها من ملخصات قواعد بيانات PubMed. يُعدّ التحدي المتمثل في PubMedQA هو الإجابة على الأسئلة البحثية بخيارات "نعم" أو "لا" أو "ربما" (مثلاً: هل تقلل الأدوية المخفضة للكوليسترول قبل الجراحة من حدوث اضطراب نبض الأذين بعد عملية زراعة الشريان التاجي؟) باستخدام الملخصات المرتبطة بها. تضم مجموعة PubMedQA 1000 مثالًا تم تعيينه خبراء، و61.2 ألف مثال غير مُسَمَّى، و211.3 ألف مثال تم إنشاؤه اصطناعيًا. يتكون كل مثال في PubMedQA من: (1) سؤال، إما أن يكون عنوانًا لمقال بحثي موجود أو مشتقًا منه، (2) سياق، وهو الملخص المرتبط دون الجزء الخاص بالاستنتاج، (3) إجابة طويلة، وهي الجزء الخاص بالاستنتاج في الملخص، والذي يُفترض أنه يُجيب على السؤال البحثي، و(4) إجابة بسيطة من نوع "نعم" أو "لا" أو "ربما"، تلخص الاستنتاج. تُعد PubMedQA أول مجموعة بيانات لأسئلة الإجابة حيث يُطلب من النموذج التفكير في النصوص البحثية الطبية الحيوية، وبخاصة في محتواها الكمي، لاستخلاص الإجابة. حقق أفضل نموذج لدينا، من خلال عملية التدريب الدقيق متعددة المراحل على نموذج BioBERT مع استخدام إحصائيات مجموع الكلمات في الإجابة الطويلة كمصدر إشراف إضافي، دقة بلغت 68.1%، مقارنة بدقة الإنسان الواحدة التي بلغت 78.0%، ودقة النموذج القائم على التصويت الأغلبية التي بلغت 55.2%، ما يشير إلى وجود مجال واسع للتحسين. تُتاح مجموعة PubMedQA للجمهور العام عبر الرابط التالي: https://url.