HyperAIHyperAI
منذ 17 أيام

Clinical-Longformer وClinical-BigBird: نماذج تحول لالتسلسلات السريرية الطويلة

Yikuan Li, Ramsey M. Wehbe, Faraz S. Ahmad, Hanyin Wang, Yuan Luo
Clinical-Longformer وClinical-BigBird: نماذج تحول لالتسلسلات السريرية الطويلة
الملخص

أظهرت النماذج القائمة على مُحَوِّلات (Transformers)، مثل BERT، تحسينات كبيرة في الأداء في مهام معالجة اللغة الطبيعية المتنوعة. كما حققت النموذج المُثَرَّى بالمعارف السريرية، المعروف باسم ClinicalBERT، نتائج متقدمة في مجالات التعرف على الكيانات الاسمية السريرية واستنتاج اللغة الطبيعية. ومع ذلك، يُعد أحد القيود الأساسية لهذه المحولات هو الاستهلاك الكبير للذاكرة الناتج عن آلية الانتباه الذاتي الكاملة. وللتغلب على هذه المشكلة، تم اقتراح نماذج محولات تدعم التسلسلات الطويلة، مثل Longformer وBigBird، باستخدام مفهوم آلية الانتباه النادر (Sparse Attention)، بهدف تقليل استهلاك الذاكرة من الدرجة التربيعية إلى الدرجة الخطية بالنسبة لطول التسلسل. وقد تم توسيع الحد الأقصى لطول التسلسل المدخل من 512 إلى 4096، مما عزز قدرة النماذج على نمذجة الاعتماديات طويلة المدى، وبالتالي تحقيق نتائج مثلى في مجموعة واسعة من المهام. مستوحاة من نجاح هذه النماذج الطويلة التسلسل، نقدم نموذجين جديدين لغة مُخصَّصَين للمجالات، وهما Clinical-Longformer وClinical-BigBird، اللذان تم تدريبهما مسبقًا على مجموعات كبيرة من البيانات السريرية. وقد قُمنا بتقييم النموذجين المُدرَّبين مسبقًا باستخدام 10 مهام أساسية، تشمل التعرف على الكيانات الاسمية، والإجابة على الأسئلة، وتصنيف المستندات. أظهرت النتائج أن Clinical-Longformer وClinical-BigBird يتفوقان بشكل مستمر وملحوظ على ClinicalBERT وعلى باقي النماذج القائمة على التسلسلات القصيرة في جميع المهام التالية (downstream tasks). وقد قمنا بإتاحة كود المصدر على الرابط التالي: [https://github.com/luoyuanlab/Clinical-Longformer]، كما أصبحت النماذج المُدرَّبة مسبقًا متاحة للتحميل العام من خلال: [https://huggingface.co/yikuan8/Clinical-Longformer].