MASK: إطار مرن يُسهّل التخلّص من الهوية في النصوص السريرية

تحتوي السجلات الطبية والملخصات السريرية على كمّ هائل من المعلومات الهامة المكتوبة التي يمكن أن تساهم في تقدم الأبحاث المتعلقة بالعلاجات والأدوية والصحة العامة. ومع ذلك، فإن معظم هذه المعلومات لا تُشارك بسبب احتوائها على معلومات شخصية عن المرضى أو أفراد عائلاتهم أو الموظفين الطبيين المتعاملين معهم. تُنظّم القوانين مثل قانون HIPAA في الولايات المتحدة، وقانون PHIPPA في كندا، وقانون GDPR في أوروبا حماية ومعالجة وتوزيع هذه المعلومات. وفي الحالة التي يتم فيها إزالة الهوية الشخصية عن هذه المعلومات، بحيث تُستبدل أو تُحذف المعلومات الشخصية، يمكن توزيعها على مجتمع البحث. في هذا البحث، نقدّم MASK، وهي حزمة برمجية مصممة لأداء مهمة إزالة الهوية. تمتلك هذه الأداة القدرة على إجراء التعرف على الكيانات المحددة باستخدام بعض التقنيات الرائدة في مجال الذكاء الاصطناعي، ثم تمويه أو حذف الكيانات التي تم التعرف عليها. يُتيح المستخدم اختيار خوارزمية التعرف على الكيانات المحددة (وهي حاليًا نسختان من تقنيات CRF، وشبكة عصبية BiLSTM ذات تضمينات مُدرّبة مسبقًا باستخدام GLoVe وELMo)، وكذلك اختيار خوارزمية التمويه (مثل تحريك التواريخ، واستبدال الأسماء/المواقع، أو حذف الكيان بالكامل).