PubMedQA: مجموعة بيانات للإجابة على أسئلة البحث الطبي

نُقدّم "PubMedQA"، مجموعة بيانات جديدة للإجابة على الأسئلة في المجال الطبي، تم جمعها من ملخصات قواعد بيانات PubMed. يُعدّ التحدي المُقدّم في PubMedQA هو الإجابة على أسئلة بحثية باستخدام إجابات من نوع نعم/لا/ربما (مثلاً: هل تقلل الستاتينات المُسبقة للجراحة من حدوث الرجفان الأذيني بعد عملية زرع شريان تاجي؟) باستخدام الملخصات المرتبطة بها. تحتوي مجموعة بيانات PubMedQA على 1000 مثال مُعلّم من قبل خبراء، و61.2 ألف مثال غير مُعلّم، و211.3 ألف مثال تم إنشاؤه اصطناعيًا. يتكون كل مثال في PubMedQA من: (1) سؤال، إما أن يكون عنوانًا لبحث موجود أو مشتقًا منه، (2) سياق، وهو الملخص المرتبط دون قسم الخاتمة، (3) إجابة طويلة، وهي خاتمة الملخص، والتي تُفترض أنها تُجيب على السؤال البحثي، و(4) إجابة من نوع نعم/لا/ربما، تلخّص الخاتمة. تُعدّ PubMedQA أول مجموعة بيانات للإجابة على الأسئلة تتطلب التفكير في النصوص البحثية الطبية، وبخاصة في محتواها الكمي. حقق أفضل نموذج لدينا، من خلال عملية تدريب متعددة المراحل لنموذج BioBERT مع استخدام إحصائيات "حقيبة الكلمات" للإجابة الطويلة كمُراقبة إضافية، دقة بلغت 68.1%، مقارنةً بدقة الإنسان الواحد التي بلغت 78.0%، والأساسية البسيطة (majority baseline) التي بلغت 55.2%، ما يُشير إلى وجود مجال واسع للتحسين. تُتاح PubMedQA للعامة عبر الرابط: https://pubmedqa.github.io.