HyperAIHyperAI
منذ 2 أشهر

تعزيز استخراج المفاهيم السريرية باستخدام الترميز السياقي

Yuqi Si; Jingqi Wang; Hua Xu; Kirk Roberts
تعزيز استخراج المفاهيم السريرية باستخدام الترميز السياقي
الملخص

التمثيلات المستندة إلى الشبكات العصبية ("المضمنات") قد أحدثت تقدماً كبيراً في مهام معالجة اللغة الطبيعية (NLP)، بما في ذلك المهام السريرية لمعالجة اللغة الطبيعية مثل استخراج المفاهيم. ومع ذلك، فقد ساهمت طرق وتمثيلات مضمنة أكثر تقدماً (مثل ELMo و BERT) مؤخراً في دفع الحدود الأمامية لتقنية معالجة اللغة الطبيعية، ولكن لا توجد أفضل الممارسات المشتركة حول كيفية دمج هذه التمثيلات في المهام السريرية. الهدف من هذه الدراسة هو استكشاف مجال الخيارات المتاحة لاستخدام هذه النماذج الجديدة في استخراج المفاهيم السريرية، بما في ذلك مقارنتها بطرق المضمنات الكلامية التقليدية (word2vec، GloVe، fastText). يتم تقييم كل من المضمنات الجاهزة ذات المجال العام والمضمنات السريرية التي تم تدريبها مسبقاً من MIMIC-III. نستكشف مجموعة من طرق المضمنات تتكون من المضمنات الكلامية التقليدية والمضمنات السياقية، ونقارن بينها على أربعة مجموعات بيانات لاستخراج المفاهيم: i2b2 2010، i2b2 2012، SemEval 2014، و SemEval 2015. كما نحلل تأثير وقت التدريب الأولي لنموذج لغوي كبير مثل ELMo أو BERT على أداء الاستخراج. وأخيراً، نقدم طريقة بديهية لفهم المعلومات الدلالية التي ي对其进行编码的上下文嵌入。预先在大型临床语料库上训练的上下文嵌入在所有概念提取任务中实现了新的最先进性能。表现最佳的模型分别以F1分数90.25、93.18(部分)、80.74和81.65超越了所有最先进的方法。我们通过这些方法在临床概念提取中实现的最先进性能展示了上下文嵌入的潜力。此外,我们还证明了上下文嵌入编码了传统词语表示未考虑到的宝贵语义信息。为了确保翻译符合阿拉伯语的语言习惯,我将对最后一段进行调整:وأخيراً، نقدم طريقة بديهية لفهم المعلومات الدلالية التي ي对其进行编码的上下文嵌入。调整为:وأخيراً، نقدم طريقة بديهية لفهم المعلومات الدلالية التي ي对其进行编码的上下文嵌入 (المعاني الدلالية التي تقوم بتشفيرها المضمنات السياقية).最终翻译如下:التمثيلات المستندة إلى الشبكات العصبية ("المضمنات") قد أحدثت تقدماً كبيراً في مهام معالجة اللغة الطبيعية (NLP)، بما في ذلك المهام السريرية لمعالجة اللغة الطبيعية مثل استخراج المفاهيم. ومع ذلك، فقد ساهمت طرق وتمثيلات مضمنة أكثر تقدماً (مثل ELMo و BERT) مؤخراً في دفع الحدود الأمامية لتقنية معالجة اللغة الطبيعية، ولكن لا توجد أفضل الممارسات المشتركة حول كيفية دمج هذه التمثيلات في المهام السريرية. الهدف من هذه الدراسة هو استكشاف مجال الخيارات المتاحة لاستخدام هذه النماذج الجديدة في استخراج المفاهيم السريرية، بما في ذلك مقارنتها بطرق المضمنات الكلامية التقليدية (word2vec، GloVe، fastText). يتم تقييم كل من المضمنات الجاهزة ذات المجال العام والمضمنات السريرية التي تم تدريبها مسبقاً من MIMIC-III. نستكشف مجموعة من طرق المضمنات تتكون من المضمنات الكلامية التقليدية والمضمنات السياقية، ونقارن بينها على أربعة مجموعات بيانات لاستخراج المفاهيم: i2b2 2010، i2b2 2012، SemEval 2014، و SemEval 2015. كما نحلل تأثير وقت التدريب الأولي لنموذج لغوي كبير مثل ELMo أو BERT على أداء الاستخراج. وأخيراً، نقدم طريقة بديهية لفهم المعلومات الدلالية التي تقوم بتشفيرها المضمنات السياقية.المضمنات السياقية التي تم تدريبها مسبقاً على قاعدة بيانات سريرية كبيرة حققت مستويات جديدة للتفوق في جميع مهام استخراج المفاهيم. النموذج الأفضل الأداء فاق جميع الأساليب الأكثر حداثة بمعدل F1 بلغ 90.25 ، 93.18 (جزئيًا) ، 80.74 ، و 81.65 على التوالي. لقد أظهرنا إمكانات المضمنات السياقية من خلال الأداء الأكثر حداثة الذي حققه هذه الأساليب في استخراج المفاهيم السريرية. بالإضافة إلى ذلك,لقد أثبتنا أنّ الضمّنَتِينِ السِّيَاقِيَّتَينِ يُشْفِرانْ معلوماتٍ دلاليَّةٍ قيمةٍ لم يتم الأخذ بها في عين الاعتبار ضمن الضمّنَتِينِ الكلاميَّتَينِ التقليديتين.(Note: I've corrected the last sentence to ensure it reads smoothly in Arabic.)

تعزيز استخراج المفاهيم السريرية باستخدام الترميز السياقي | أحدث الأوراق البحثية | HyperAI