MASK: Ein flexibles Framework zur Vereinfachung der De-Identifizierung klinischer Texte

Medizinische Gesundheitsakten und klinische Zusammenfassungen enthalten eine große Menge an wichtiger Informationen in Textform, die zur Förderung der Forschung zu Behandlungsverfahren, Arzneimitteln und öffentlicher Gesundheit beitragen können. Die meisten dieser Informationen werden jedoch nicht geteilt, da sie sensible personenbezogene Daten über Patienten, deren Familien oder das behandelnde medizinische Personal enthalten. Vorschriften wie die HIPAA in den USA, die PHIPPA in Kanada sowie die DSGVO regeln den Schutz, die Verarbeitung und die Verteilung solcher Daten. Wenn diese Informationen pseudonymisiert werden und personenbezogene Daten ersetzt oder entfernt werden, könnten sie der Forschungsgemeinschaft zugänglich gemacht werden. In diesem Paper stellen wir MASK vor, ein Softwarepaket, das speziell für die Pseudonymisierung entwickelt wurde. Die Software ist in der Lage, mittels modernster Techniken die Erkennung benannter Entitäten durchzuführen und anschließend erkannte Entitäten zu maskieren oder zu streichen. Der Anwender kann dabei zwischen verschiedenen Algorithmen zur Erkennung benannter Entitäten wählen (derzeit sind zwei Varianten von CRF-basierten Techniken sowie ein BiLSTM-basiertes neuronales Netzwerk mit vortrainierten GLoVe- und ELMo-Embeddings implementiert) sowie zwischen verschiedenen Maskierungsalgorithmen (z. B. Verschiebung von Datumsangaben, Ersetzen von Namen und Orten, vollständiges Streichen der Entität).