HyperAIHyperAI
منذ 17 أيام

BioBERTpt - نموذج لغوي عصبي برتغالي للتعرف على الكيانات المحددة في السياق السريري

{Cláudia Maria Cabral Moro Barra, Douglas Teodoro, Emerson Cabrera Paraiso, Lucas Ferro Antunes de Oliveira, Yohan Bonescki Gumiel, Jenny Copara, Lucas Emanuel Silva e Oliveira, Julien Knafou, João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider}
BioBERTpt - نموذج لغوي عصبي برتغالي للتعرف على الكيانات المحددة في السياق السريري
الملخص

مع التزايد المستمر في كميات بيانات السجلات الصحية الإلكترونية، أصبحت مهام معالجة اللغة الطبية الحاسوبية (NLP) أكثر أهمية من حيث استخراج المعلومات القيّمة من النصوص السريرية غير المنظمة. وعلى الرغم من التحسن الأخير في أداء المهام النهائية لمعالجة اللغة الحاسوبية، مثل التعرف على الكيانات المحددة (NER)، في المجموعات النصية الإنجليزية بفضل نماذج اللغات المُحتَفَظة بالسياق، إلا أن الأبحاث المتاحة حول النصوص السريرية بلغات منخفضة الموارد ما زالت محدودة. يهدف هذا العمل إلى تقييم نموذج تضمين سياقي عميق مُخصص للبرتغالية، يُعرف بـ BioBERTpt، لدعم مهام التعرف على الكيانات في السياقات الطبية والبيولوجية. تم نقل المعرفة المُكتسبة من نموذج BERT متعدد اللغات إلى مجموعات نصية تتضمن سردًا سريريًا وورقًا علمية بيولوجية بالبرتغالية البرازيلية. ولتقييم أداء نموذج BioBERTpt، أجرينا تجارب NER على مجموعتين مُصنّفَتين تحتويان على نصوص سريرية، وقورن النتائج مع النماذج الحالية المبنية على BERT. أظهر النموذج المُخصص للسياق (in-domain) تفوقًا على النموذج الأساسي بنسبة 2.72% في معامل F1، وحقق أداءً أفضل في 11 من أصل 13 كيانًا تم تقييمه. ونُظهر من خلال هذا العمل أن تثري نماذج التضمين السياقي بمصادر الأدبيات المتخصصة يمكن أن يلعب دورًا مهمًا في تحسين الأداء لمهام معينة في معالجة اللغة الحاسوبية. كما ساهمت عملية التعلم المنقول في تحسين نموذج التعرف على الكيانات الطبية في البرتغالية، من خلال تقليل الحاجة إلى بيانات مُصنّفة، وتقليل الحاجة إلى إعادة تدريب نموذج جديد بالكامل.

BioBERTpt - نموذج لغوي عصبي برتغالي للتعرف على الكيانات المحددة في السياق السريري | أحدث الأوراق البحثية | HyperAI