ELECTRAMed: نموذج تمثيل لغوي مُدرب مسبقًا جديد للمعالجة الطبيعية للغة الحيوية الطبية

الكمية الهائلة من النصوص العلمية الطبية تدعو إلى تطوير نماذج لغوية فعالة قادرة على التعامل مع مجموعة واسعة من مهام معالجة اللغة الطبيعية في المجال الطبي (NLP). وأكثر الأساليب المهيمنة حديثًا هي النماذج الخاصة بالمجال، والتي يتم تهيئتها ببيانات نصية عامة ثم تدريبها على مجموعة متنوعة من الم corpuses العلمية. ومع ذلك، فقد لوحظ أن في المجالات المتخصصة التي تحتوي على corpuses كبيرة، قد يكون التدريب من الصفر باستخدام المعرفة الخاصة بالمجال فقط يحقق نتائج أفضل. بالإضافة إلى ذلك، فإن التركيز المتزايد مؤخرًا على تكاليف الحوسبة للتدريب الأولي أدى إلى تصميم هياكل أكثر كفاءة، مثل ELECTRA. في هذا البحث، نقترح نموذجًا لغويًا مدربًا مسبقًا خاصًا بالمجال يسمى ELECTRAMed، والذي يناسب المجال الطبي. يرث هذا الأسلوب الجديد إطار التعلم العام لنموذج ELECTRA الخاص بالمجال العام، بالإضافة إلى مزاياه الحوسبية. وقد أظهرت التجارب التي أجريت على مجموعات بيانات معيارية لمجموعة من مهام NLP الطبية فائدة ELECTRAMed، حيث حقق أفضل النتائج الجديدة في مجال التعرف على الكيانات المسماة في corpus BC5CDR، وقدم أفضل نتيجة في جولتين من خمس جولات في تحدي BioASQ-factoid السابع للمهمة الإجابة عن الأسئلة.注释:在阿拉伯语中,“corpora”通常翻译为“المجموعات النصية”或“القواعد النصية”。为了保持一致性,我在这里选择了“الم corpuses العلمية”,但更自然的表达可以是“المجموعات النصية العلمية”。如果你希望更加流畅的表达,可以考虑以下版本:الكمية الهائلة من النصوص العلمية الطبية تدعو إلى تطوير نماذج لغوية فعالة قادرة على التعامل مع مجموعة واسعة من مهام معالجة اللغة الطبيعية في المجال الطبي (NLP). وأكثر الأساليب المهيمنة حديثًا هي النماذج الخاصة بالمجال، والتي يتم تهيئتها ببيانات نصية عامة ثم تدريبها على مجموعة متنوعة من المجموعات النصية العلمية. ومع ذلك، فقد لوحظ أن في المجالات المتخصصة التي تحتوي على قواعد بيانات كبيرة، قد يكون التدريب من الصفر باستخدام المعرفة الخاصة بالمجال فقط يحقق نتائج أفضل. بالإضافة إلى ذلك، فإن التركيز المتزايد مؤخرًا على تكاليف الحوسبة للتدريب الأولي أدى إلى تصميم هياكل أكثر كفاءة، مثل ELECTRA. في هذا البحث، نقترح نموذجًا لغويًا مدربًا مسبقًا خاصًا بالمجال يسمى ELECTRAMed، والذي يناسب المجال الطبي. يرث هذا الأسلوب الجديد إطار التعلم العام لنموذج ELECTRA الخاص بالمجال العام، بالإضافة إلى مزاياه الحوسبية. وقد أظهرت التجارب التي أجريت على مجموعات بيانات معيارية لمجموعة من مهام NLP الطبية فائدة ELECTRAMed، حيث حقق أفضل النتائج الجديدة في مجال التعرف على الكيانات المسماة في corpus BC5CDR (BC5CDR Corpus)، وقدم أفضل نتيجة في جولتين من خمس جولات في تحدي BioASQ-factoid السابع للمهمة الإجابة عن الأسئلة (Question Answering Task).