CheXclusion: فجوات العدالة في تصنيفات الأشعة السينية الصدرية العميقة

لقد لاقت أنظمة التعلم الآلي اهتمامًا كبيرًا في الآونة الأخيرة بفضل قدرتها على تحقيق أداءً يُعدّ من مستوى الخبراء في المهام السريرية، وخاصة في التصوير الطبي. وفي هذا العمل، نستعرض مدى تحيز النماذج المتقدمة لتعلم الآلة العميقة، التي تم تدريبها للحصول على علامات تشخيصية من صور الأشعة السينية، تجاه الخصائص المحمية. قمنا بتدريب شبكات عصبية متعددة الطبقات (CNN) للتنبؤ بـ 14 علامة تشخيصية في ثلاث مجموعات بيانات عامة بارزة لتصوير الصدر بالأشعة السينية: MIMIC-CXR وChest-Xray8 وCheXpert، بالإضافة إلى مجموعة مجمعة متعددة المواقع تضم جميع هذه المجموعات. وقمنا بتقييم الفجوة في معدلات الاصطلاح الحقيقي (TPR) — أي الفرق في معدلات الاصطلاح الحقيقي (TPR) — بين مختلف الخصائص المحمية مثل جنس المريض، وعمره، وعرقه، ونوع التأمين الصحي (كما يُستخدم كمُمثل لوضعه الاجتماعي-الاقتصادي). ونُظهر أن فجوات TPR توجد في النماذج المتطورة في جميع المجموعات، وفي جميع المهام السريرية، وفي جميع المجموعات الفرعية. كما أن المجموعة المجمعة من مصادر متعددة تُظهر أقل فجوات، مما يشير إلى إحدى الطرق الممكنة لتقليل التحيز. ووجدنا أن فجوات TPR لا ت correlated بشكل كبير مع العبء المرضي النسبي لكل مجموعة فرعية. ومع انتقال النماذج السريرية من الأوراق البحثية إلى المنتجات الحقيقية، نشجع صانعي القرار السريري على مراجعة دقيقة للكشف عن التحيزات الخوارزمية قبل النشر. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/LalehSeyyed/CheXclusion