7日前
Mimic-IV-ICD:eXtreme MultiLabel Classificationのための新規ベンチマーク
Thanh-Tung Nguyen, Viktor Schlegel, Abhinav Kashyap, Stefan Winkler, Shao-Syuan Huang, Jie-Jyun Liu, Chih-Jen Lin

要約
臨床ノートには、診断および処置を表すためのICDコード(国際疾病分類コード)が付与される。近年、自動ICDコード付与のための予測機械学習モデルが開発されてきたが、大規模な公開電子カルテ(EHR)データに基づく自動ICDコード付与モデルに対する広く受け入れられたベンチマークは依然として不足している。本論文では、最新の公開EHRデータセットであるMIMIC-IVから抽出された大規模なEHRデータを用いて、ICD-10コード付与のための公開ベンチマークセットを提案する。我々は、ICDコード予測タスクにおいて複数の代表的な手法を実装・比較することで、データ前処理の標準化と包括的なICDコード付与ベンチマークデータセットの構築を実現した。このアプローチにより、再現性の確保とモデル間の比較が促進され、今後の研究における自動ICDコード付与の活用を加速するものとなる。さらに、MIMIC-IVデータを用いて新たなICD-9コード用ベンチマークも構築した。これにより、MIMIC-IIIに比べてより多くのデータポイントとより多数のICDコードをカバーできるようになった。本研究で公開するオープンソースコードは、MIMIC-IVにアクセス可能な研究者にとって、データ処理手順、ベンチマーク構築、実験の再現が容易となるよう設計されており、ICDコード付与モデルの効率的な開発に向けた知見、ガイドライン、プロトコルを提供する。