Mimic-IV-ICD: معيار جديد لتصنيف العلامات المتعددة الطرفية المفرطة

تُخصَّص ملاحظات السريرية رموزًا طبية حسب التصنيف الدولي للأمراض (ICD)، وهي مجموعات من الرموز المستخدمة لتحديد التشخيصات والإجراءات الطبية. في السنوات الأخيرة، تم تطوير نماذج تعلم آلي تنبؤية لتصنيف الرموز ICD تلقائيًا. ومع ذلك، تُعاني هذه النماذج من نقص في معايير مقبولة على نطاق واسع لقياس الأداء، خاصة عند الاعتماد على بيانات سجلات مرضى إلكترونية كبيرة ومفتوحة المصدر.يُقدّم هذا البحث مجموعة معايير عامة (benchmark suite) مفتوحة المصدر لتصنيف الرموز ICD-10، باستخدام مجموعة بيانات سجلات مرضى إلكترونية ضخمة مستمدة من مجموعات MIMIC-IV، وهي أحدث مجموعة بيانات سجلات مرضى إلكترونية مفتوحة متاحة للعامة. قمنا بتنفيذ ومقارنة عدة طرق شائعة لمهام التنبؤ بتصنيف الرموز ICD، بهدف توحيد خطوات معالجة البيانات وبناء مجموعة بيانات معيارية شاملة لتصنيف ICD. يُسهم هذا النهج في تعزيز إمكانية إعادة التكرار (reproducibility) وتمكين المقارنة بين النماذج، مما يُسرّع التقدم نحو توظيف التصنيف التلقائي للرموز ICD في الدراسات المستقبلية. بالإضافة إلى ذلك، قمنا بإنشاء معيار جديد لتصنيف الرموز ICD-9 باستخدام بيانات MIMIC-IV، حيث يوفر هذا المعيار عددًا أكبر من النقاط البيانات، وعددًا أكبر من الرموز ICD مقارنةً ببيانات MIMIC-III. كما تتيح الكود المفتوح المصدر وصولًا سهلًا إلى خطوات معالجة البيانات، وإنشاء المعايير، وتنفيذ التجارب، للمهتمين الذين لديهم وصول إلى بيانات MIMIC-IV، مما يوفر رؤى وتوجيهات وبروتوكولات فعّالة لتطوير نماذج تصنيف الرموز ICD بكفاءة.