17日前

MASK:臨床テキストの脱識別を促進するための柔軟なフレームワーク

Nikola Milosevic, Gangamma Kalappa, Hesam Dadafarin, Mahmoud Azimaee, Goran Nenadic
MASK:臨床テキストの脱識別を促進するための柔軟なフレームワーク
要約

医療健康記録および臨床サマリーには、治療法、薬剤、公衆衛生に関する研究を進展させる上で重要な情報を多数含むテキストデータが存在する。しかし、これらの情報の大部分は、患者本人やその家族、あるいは治療に従事する医療従事者の個人情報を含むため、共有されないのが現状である。米国のHIPAA、カナダのPHIPPA、欧州連合のGDPRなどの規制により、こうした情報の保護、処理、配布が厳格に管理されている。ただし、個人を特定できる情報が除去(脱識別化)され、個人情報を置換または削除されたデータであれば、研究コミュニティへの共有が可能となる。本論文では、このような脱識別化作業を支援するソフトウェアパッケージ「MASK」を提案する。このソフトウェアは、最先端の技術を用いた名前付きエンティティ認識(NER)を実行し、認識されたエンティティをマスクまたは削除する機能を備えている。ユーザーは、名前付きエンティティ認識アルゴリズム(現在はCRFベースの2種類の手法および、事前学習済みGLoVeとELMo埋め込みを用いたBiLSTMベースのニューラルネットワーク)およびマスク処理アルゴリズム(例:日付のシフト、名前・場所の置換、エンティティの完全削除)を選択可能である。

MASK:臨床テキストの脱識別を促進するための柔軟なフレームワーク | 最新論文 | HyperAI超神経