منذ 11 أيام
MeDAL: مجموعة بيانات تفسير الاختصارات الطبية لتدريب مسبق لفهم اللغة الطبيعية
Zhi Wen, Xing Han Lu, Siva Reddy

الملخص
إحدى أكبر التحديات التي تمنع استخدام العديد من الطرق الحالية في معالجة اللغة الطبيعية (NLP) في البيئات السريرية هي ندرة مجموعات البيانات العامة. في هذه الدراسة، نقدّم MeDAL، وهي مجموعة بيانات كبيرة نصية طبية تم جمعها وتوثيقها لغرض توضيح التعاريف المختصرة، مصممة لتدريب مسبق على فهم اللغة الطبيعية في المجال الطبي. قمنا بتدريب عدة نماذج ذات هياكل شائعة على هذه المجموعة، وأظهرنا تجريبيًا أن هذا التدريب المسبق يؤدي إلى تحسين الأداء وسرعة التقارب عند التخصيص الدقيق (fine-tuning) على المهام الطبية اللاحقة.