
要約
ディープラーニングモデルは、画像分類や音声処理などの分野で優れた性能を示している。しかし、電子健康記録(EHR)データを用いたディープラーニングモデルの構築には、この分野の研究者に特有のプライバシー上の課題に対処する必要がある。この問題は、プライバシーを確保しつつ現実的な合成データを生成することの重要性を浮き彫りにする。本論文では、合成医療記録の生成を目的として、相関捕捉型生成対抗ネットワーク(CorGAN)と呼ばれる新たなフレームワークを提案する。CorGANでは、畳み込み生成対抗ネットワーク(Convolutional GAN)と畳み込みオートエンコーダーを統合することで、データ表現空間における隣接する医療特徴間の相関を畳み込みニューラルネットワーク(CNN)を用いて捉える。モデルの忠実性を検証するために、分類や予測といったさまざまな機械学習設定において、CorGANが生成する合成データが実データと同等の性能を発揮することを示す。また、プライバシー評価および合成データの現実性に関する統計的分析も報告する。本研究のソフトウェアはオープンソースであり、以下のURLから利用可能である:https://github.com/astorfi/cor-gan。