شرح الترميز الآلي للملفات السريرية باستخدام شبكات الانتباه الهرمية حسب العلامة وتهيئة تمثيل العلامات

يهدف ترميز الملاحظات السريرية التشخيصية أو الإجرائية إلى استخلاص ملخص مرمّز لمعلومات مرتبطة بالأمراض حول المرضى. يتم هذا الترميز عادةً يدويًا في المستشفيات، ولكنه يمكن أن يتم تلقائيًا لتحسين كفاءة ودقة الترميز الطبي. حققت الدراسات الحديثة حول استخدام التعلم العميق للترميز الطبي الآلي نتائج واعدة. ومع ذلك، فإن قابلية تفسير هذه النماذج غالبًا ما تكون ضعيفة، مما يحول دون استخدامها بثقة في دعم الممارسة السريرية. كما أن هناك قيدًا آخر وهو أن هذه النماذج غالبًا ما تفترض الاستقلال بين العلامات، مما يؤدي إلى إغفال الارتباط المعقد بين الرموز الطبية التي يمكن استغلاله لتحسين الأداء.نقترح شبكة انتباه هرمية حسب العلامة (HLAN)، والتي تهدف إلى تفسير النموذج من خلال تقدير أهمية الكلمات والجمل المرتبطة بكل علامة (كأوزان للانتباه). ثانيًا، نقترح تعزيز النماذج الرئيسية للتعلم العميق باستخدام طريقة التهيئة الأولية للرمز المدمج (Label Embedding - LE)، والتي تتعلم تمثيلًا كثيفًا ومتجهًا مستمرًا ثم تقوم بحقن هذا التمثيل في الطبقات الأخيرة وفي طبقات الانتباه حسب العلامة في النماذج.تم تقييم الأساليب باستخدام ثلاثة إعدادات على الملخصات الخروجية لمجموعة MIMIC-III: الرموز الكاملة، وأهم 50 رمزًا، والرموز الخاصة بالحماية من كوفيد-19 في المملكة المتحدة (UK NHS COVID-19 Shielding Codes). أجريت التجارب للمقارنة بين HLAN وتهيئة LE مع أفضل الأساليب القائمة على الشبكات العصبية. حققت HLAN أفضل أداء على مستوى الدقة الصغرى (Micro-level AUC) وـ $F_1$ في التنبؤ بأهم 50 رمزًا، وكانت نتائجها مقاربة لنتائج النماذج الأخرى في التنبؤ برموز الحماية من كوفيد-19 في NHS. من خلال تسليط الضوء على الكلمات والجمل الأكثر أهمية لكل علامة، أظهرت HLAN تفسيرًا أكثر معنى وشمولية مقارنة بنماذج الأساس المنخفضة والنماذج القائمة على CNN. لقد زادت LE بشكل ثابت من أداء معظم نماذج التعلم العميق للترميز الطبي الآلي.