الضبط الدقيق القائم على التحفيز المعرفي للتصنيف المتعدد للصور القليلة في ترميز ICD

التصنيف الدولي الآلي للأمراض (ICD) يهدف إلى تعيين رموز ICD متعددة لملحوظة طبية ذات طول متوسط يتجاوز 3,000 وحدة لغوية. يعتبر هذا المهمة تحديًا بسبب الفضاء ذي الأبعاد العالية للتعيين المتعدد للرموز (عشرات الآلاف من رموز ICD) والتحدي ذيل طويل: يتم تعيين عدد قليل فقط من الرموز (الأمراض الشائعة) بشكل متكرر، بينما يتم تعيين معظم الرموز (الأمراض النادرة) بشكل نادر. تتناول هذه الدراسة التحدي ذيل طويل من خلال تكييف تقنية التعديل الدقيق القائمة على الإرشادات مع دلالات الرموز، والتي أثبتت فعاليتها في الإعداد ذو الطلقات القليلة. لتعزيز الأداء في المجال الطبي بشكل أكبر، نقترح استخدام نموذج Longformer مدعم بالمعرفة من خلال ضخ ثلاثة أنواع من المعرفة الخاصة بالقطاع: التسلسل الهرمي، والمترادفات، والاختصارات، مع إجراء تعديل مسبق إضافي باستخدام التعلم التضادي. أظهرت التجارب التي أجريت على مجموعة بيانات MIMIC-III-full، وهي مجموعة مرجعية لتقييم التعيين الرمزي، أن النموذج المقترح يتفوق على أفضل الأساليب السابقة بنسبة 14.5% في F1 الكلي (من 10.3 إلى 11.8، P<0.001). لاختبار نموذجنا بشكل أكبر في الإعداد ذو الطلقات القليلة، قمنا بإنشاء مجموعة بيانات جديدة لرموز الأمراض النادرة تسمى MIMIC-III-rare50، حيث يحسن نموذجنا F1 الكلي من 17.1 إلى 30.4 وF1 الجزئي من 17.2 إلى 32.6 مقارنة بالطريقة السابقة.