2ヶ月前
MIMIC-Extract: MIMIC-III用のデータ抽出、前処理、および表現パイプライン
Shirly Wang; Matthew B. A. McDermott; Geeticka Chauhan; Michael C. Hughes; Tristan Naumann; Marzyeh Ghassemi

要約
堅牢な機械学習は、重要なタスクで標準化されたフレームワークを使用できるデータへのアクセスと、その性能が合理的に再現可能なモデルを開発する能力に依存しています。医療分野における機械学習では、公開されているデータの不足と標準化されたデータ処理フレームワークの欠如により、再現性の課題に直面しています。本稿では、MIMIC-Extractを紹介します。これは、公開されているMIMIC-IIIデータベースに含まれる重篤患者の電子健康記録(EHR)データを直接一般的な機械学習パイプラインで使用可能なデータフレームに変換するオープンソースのパイプラインです。MIMIC-Extractは、複雑な健康記録データを広範な機械学習コミュニティに利用可能にするために三つの主要な課題に対処しています。第一に、単位変換、外れ値検出、意味的に同等の特徴量の集約などの標準化されたデータ処理機能を提供し、重複を考慮に入れつつ欠損値を削減します。第二に、臨床データの時系列的な性質を保ちつつ、医療分野での機械学習における臨床的に実行可能な予測タスクとの容易な統合が可能です。第三に、非常に拡張性が高く、関連する研究を行う他の研究者が同じパイプラインを利用しやすいように設計されています。このパイプラインの有用性を示すために、いくつかのベンチマークタスクと基準結果を提示します。