التشفير التلقائي للترميزات الطبية (ICD) باستخدام البنية النحوية والتمثيلات المُنسَّقة للترميزات

يُعد تصنيف الأمراض الدولي (ICD) الأساس الذي تُبنى عليه الإحصاءات الصحية العالمية والوبائيات. تم تصميم ICD لتحويل الحالات الصحية إلى رموز أحرف وأرقام. وقد تم اقتراح عدد من النماذج لترميز ICD تلقائيًا، نظرًا لأن الترميز اليدوي يتطلب جهدًا كبيرًا، كما أن هناك نقصًا عالميًا في عمال الرعاية الصحية. ومع ذلك، لم تُستغل الدراسات الحالية بنية الخطاب في الملاحظات السريرية، والتي توفر معلومات سياقية غنية لتعيين الرموز. في هذه الورقة، نستفيد من بنية الخطاب من خلال الاستفادة من تصنيف أنواع الأقسام وتمثيلات أنواع الأقسام. كما نركّز على مشكلة عدم التوازن بين الفئات، والاختلاف في نمط الكتابة بين الملاحظات السريرية وتعريفات رموز ICD. ويُعد النهج المُقترَح للتمثيل المنسق قادرًا على معالجة هاتين المشكلتين معًا في آن واحد. وأظهرت النتائج التجريبية على مجموعة بيانات MIMIC أن نموذجنا يتفوّق على جميع النماذج السابقة الأفضل من حيث الأداء بفارق كبير. ويمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/discnet2022/discnet