MASK : un cadre souple pour faciliter la désidentification des textes cliniques

Les dossiers médicaux et les résumés cliniques contiennent une quantité considérable d’informations importantes sous forme textuelle, pouvant contribuer à l’avancement de la recherche sur les traitements, les médicaments et la santé publique. Toutefois, la majorité de ces informations ne sont pas partagées en raison de la présence d’éléments confidentiels concernant les patients, leurs familles ou le personnel médical les soignant. Des réglementations telles que le HIPAA aux États-Unis, la PHIPPA au Canada et le RGPD en Europe encadrent la protection, le traitement et la diffusion de ces données. Lorsque ces informations sont désidentifiées — c’est-à-dire que les données personnelles sont remplacées ou masquées — elles peuvent être diffusées à la communauté scientifique. Dans cet article, nous présentons MASK, un logiciel conçu spécifiquement pour effectuer la tâche de désidentification. Ce logiciel est capable d’effectuer la reconnaissance d’entités nommées en utilisant certaines des techniques les plus avancées, puis de masquer ou de biffer les entités identifiées. L’utilisateur peut choisir parmi plusieurs algorithmes de reconnaissance d’entités nommées (actuellement deux variantes basées sur les CRF, ainsi qu’un réseau de neurones BiLSTM utilisant des embeddings pré-entraînés GLoVe et ELMo) et divers algorithmes de masquage (par exemple, décalage des dates, remplacement des noms ou localisations, suppression complète de l’entité).