BioGPT: محول توليد مُدرَّب مسبقًا لتحرير النصوص الطبية الحيوية واستخراجها

لقد لاقت نماذج اللغة المُدرّبة مسبقًا اهتمامًا متزايدًا في المجال الطبي الحيوي، مدفوعة بنجاحها الكبير في مجال اللغة الطبيعية العام. من بين الفرعين الرئيسيين لنموذج اللغة المُدرّب مسبقًا في مجال اللغة العامة، وهما BERT (وأصنافه المختلفة) وGPT (وأصنافه المختلفة)، تم دراسة الفرع الأول بشكل واسع في المجال الطبي الحيوي، مثل BioBERT وPubMedBERT. وعلى الرغم من تحقيقها نجاحًا كبيرًا في مجموعة متنوعة من المهام الطبية الحاسوبية التمييزية، فإن نقص قدرتها على التوليد يحد من نطاق تطبيقاتها. في هذه الورقة، نقترح BioGPT، وهو نموذج لغوي مُدرّب مسبقًا باستخدام تحويلة توليدية مخصصة للمجال، تم تدريبه على كميات كبيرة من الأدبيات الطبية الحيوية. وقد قمنا بتقييم BioGPT على ستة مهام في معالجة اللغة الطبيعية الطبية، وبيّنا أن نموذجنا يتفوق على النماذج السابقة في معظم المهام. وبشكل خاص، حصلنا على معدلات F1 قدرها 44.98% و38.42% و40.76% على مهام استخراج العلاقات النهائية (end-to-end) في BC5CDR وKD-DTI وDDI على التوالي، وحققنا دقة قدرها 78.2% في مهام PubMedQA، مما يُحدث سجلاً جديداً. كما أظهرت دراستنا الحالة المتعلقة بتوليد النصوص ميزة BioGPT في إنتاج وصف سلس ومقنع للمصطلحات الطبية الحيوية. يُمكن الوصول إلى الكود من خلال الرابط: https://github.com/microsoft/BioGPT.