シンガポール国立大学は、多次元EHRデータに基づくきめ細かな患者コホートモデリングを実施し、入院期間予測の精度が16.3%向上しました。

医療情報技術が急速に発展する現代において、電子医療記録(EHR)は医療システムの重要な中核構成要素となっています。EHRは体系的なアーキテクチャを備え、患者の医療記録を電子形式で正確に保存します。基本的な人口統計から動的で時間とともに変化する医学的特徴まですべてを網羅し、医療現場のあらゆる側面に確かなデータサポートを提供し、臨床上の意思決定の支援や患者管理の最適化などの重要な分野でかけがえのない役割を果たします。
2020年のCOVID-19パンデミックのピーク時の臨床現場を振り返ると、医師たちは年齢層の異なる患者群のコホートを構築することで重要なパターンを発見しました。50~70歳の患者は呼吸困難や認知機能低下などの重篤な症状を経験する可能性が高く、20~40歳の患者は軽症または無症状であることがほとんどでした。このコホートに基づく比較分析は、診断および治療計画の策定に直接的な基盤を提供するだけでなく、長年軽視されてきたEHR表現学習の中核要素、すなわち患者コホートを明らかにします。
医学研究の基本単位であるコホートは、共通の特徴を通じて類似した臨床的特徴を持つ患者群を識別します。その価値は、個々のデータの単純な蓄積をはるかに超えています。発熱症状とCOVID-19感染の相関関係など、特定の集団における疾患パターンを発見できるだけでなく、精密な医療介入のための的を絞ったエビデンスを提供することも可能です。しかしながら、従来のコホート分割法には多くの限界があり、高度なEHRデータ処理の要件を満たすことは困難です。きめ細かなキュー分割が実現できない場合、ノイズが簡単に発生し、キュー内およびキュー間の貴重な情報を十分に活用できなくなります。
この文脈では、シンガポール国立大学と浙江大学は共同で革新的な手法「NeuralCohort」を提案し、EHR表現学習への新たな道を切り開きました。この手法は、独自のデュアルモジュールアーキテクチャを通じて、既存の困難を打破し、EHRデータの潜在能力を最大限に引き出し、医療分析に強力な推進力を与えることが期待されています。医療分野における応用展望は大きな注目を集めており、医療データ分析と臨床意思決定モデルを根本的に変革し、医療産業のより高度なインテリジェント化と高精度化を促進することが期待されています。
関連研究成果は、「NeuralCohort: ヘルスケア分析のためのコホートを考慮したニューラル表現学習」というタイトルで ICML 2025 に選出されました。
研究のハイライト:
* 本研究で提案されたNeuralCohortは、細粒度のキュー生成をサポートすることに重点を置いたキューを考慮したニューラル表現学習法である。
* NeuralCohortは、これまでの電子健康記録分析研究では十分に扱われていなかった重要な要素である、コホート内のローカル情報とコホート間のグローバル情報の両方を革新的に活用します。
* NeuralCohortの強みは、優れた互換性と、様々なバックボーンモデルへのシームレスな統合にあります。コホート情報を医療分析に組み込むための汎用的なプラグインとして活用することで、全体的なパフォーマンスを向上させることができます。

用紙のアドレス:
https://openreview.net/forum?id=bqQVa6VRvm
AIフロンティアに関するその他の論文:
https://go.hyper.ai/owxf6
EHRデータシステム:多次元医療情報統合と臨床研究データセットのサポート
この研究に含まれる中核データ システムは、電子健康記録 (EHR) に基づいています。そのデータ構造は患者の全サイクルの医療情報を統合します。入院、外来、救急の詳細な記録に加え、臨床診断、治療計画、投薬歴、検査結果、画像診断レポート、臨床記録といった多次元の情報も含まれており、患者の健康状態を長期的に追跡する構造化データベースを形成し、臨床意思決定、個別化医療、そして集団健康研究のためのフルチェーンデータサポートを提供します。下表に示すように、本研究で使用された具体的なデータセットは以下のとおりです。
MIMIC-III データセットは、53,423 件の固有の入院記録を網羅した、公開されている重要な医療リソースです。この研究には、2001年から2012年の間にベス・イスラエル・デカニー医療センターの集中治療室に入院した16歳以上の成人患者が含まれており、匿名化された2,083,180件の臨床記録も含まれており、患者の病気の進行、治療プロセス、臨床上の意思決定に関する深い洞察を提供しています。
MIMIC-IV データセットは、2008 年から 2022 年の間に収集された患者の入院情報に重点を置いています。モジュール型のデータ編成構造を採用し、データソースの追跡可能性と独立性を重視しているため、研究者は必要に応じてさまざまなデータソースとその結合データを柔軟に利用できます。
Diabetes130 データセットは、1999 年から 2008 年までの 130 の米国の病院および統合医療ネットワークからの臨床ケア データを収集します。は、糖尿病治療分野におけるパターン分析に特化し、独自のデータテーマと長期にわたるデータ蓄積により、糖尿病ケアの歴史的パターンの徹底的な研究、糖尿病患者の治療計画の最適化、安全で個別化された医療サービスの実現に正確なデータサポートを提供します。

NeuralCohortモデル: デュアルモジュール駆動型コホート対応EHR表現学習フレームワーク
患者コホートを効果的に統合して電子健康記録 (EHR) データの表現学習効果を高めるために、NeuralCohort は、事前コンテキスト コホート合成モジュールと Biscale コホート学習モジュールという 2 つのコア モジュールで構成されています。

事前コンテキストキュー合成モジュールでは、NeuralCohort モデルでは、階層的な訪問エンジンが初めて導入されました。ICD-9のツリーシステムのような複雑な診断コードオントロジー構造を扱うことができます。パス表現と意味的類似度測定を組み合わせることで、糖尿病とその合併症の異なるコードなど、階層的な関連性を持つ医学用語を効果的に区別できます。同時に、このモデルは診断コード、薬剤コード、検査コードの階層的特徴を統合できます。そして、逆時間注意メカニズム(逆時間注意)を使用し、訪問シーケンスの時間的依存性を捉えるために、過去の訪問情報が現在の訪問をアンカー ポイントとして動的に集約されます。
従来の手作業による患者類似性アノテーションの非効率性に対処するため、本モジュールは革新的なPseudoSimトレーニングタスクを導入し、診断コードを用いた疑似ラベルを生成し、相互情報量ニューラル推定によって患者表現を最適化しました。最後に、ジェンセン・シャノン距離とスチューデントt分布を用いてコホート導出を実現し、後続の分析のための構造化された患者グループ分けスキームを提供しました。
デュアルスケール キュー学習モジュールは、キュー内の共通機能と異なるキュー間の異なる機能のマイニングに特化しています。。ローカルコホートモデリングでは、各コホートをグラフ構造として扱い、患者表現のコサイン類似度を用いて隣接行列を構築します。グラフニューラルネットワークは、ノード情報を層ごとに集約することで、同じコホート内の患者間の相互作用パターンを捉えます。
グローバル コホート モデリングでは、エンコーダー/デコーダー アーキテクチャを使用して、再構築損失を通じてコホートの意味的整合性を維持し、コントラスト損失を組み合わせることで、異なるコホートの特徴の分離を強化し、コホート間の区別を確実にします。
最後に、バックボーンネットワークの初期表現、キュー内のローカル表現、およびキュー間のグローバル表現を、クロスドメインアテンションメカニズムを介して融合し、マルチレベルのキュー情報を含む最終表現を形成します。モデルの学習プロセスでは、損失関数は擬似類似性学習損失、キュー導出損失、キュー比較損失、および下流タスク損失を統合し、重みパラメータの調整を通じて多目的最適化を実現します。これにより、NeuralCohortはきめ細かな個々の患者特性を学習するだけでなく、臨床的に解釈可能なキューグループパターンを捉えることができ、医療データ分析タスクに正確性と解釈可能性を兼ね備えたソリューションを提供し、科学的かつ正確な医療意思決定を促進することが期待されます。
多次元実験検証:NeuralCohortモデルの精度が16.3%向上し、患者管理における意思決定が大幅に向上
電子健康記録 (EHR) 表現学習における NeuralCohort の最適化効果を評価するために、研究チームは包括的な実験フレームワークを構築しました。
研究者らは、医療データ分析分野における代表的なモデルであるMed2Vec、MiME、ClinicalBERTの3つをベンチマークフレームワークとして選定しました。同時に、効果的な比較を行うため、KNNやK-Meansといった7つの従来のコホート統合アルゴリズムも比較手法として実験に含めました。
実験設計は、入院再予測と長期入院 (LOS) 予測という 2 つの主要な医療予測タスクに重点を置いています。これら2つの課題は、医療資源管理と患者ケアの質の向上にとって極めて重要です。モデルの性能を総合的に評価するため、研究者らは広く認知されている3つの評価指標、AUPRC、AUROC、そして精度を用いて5回の繰り返し実験を実施し、安定した信頼性の高い統計結果を得ることで、モデルの一般化能力を体系的に評価しました。
全体的な実験結果は次の表に示されています。NeuralCohortはMIMIC-IIIデータセットの2つの予測タスクで優れたパフォーマンスを示しました。従来のベースラインモデルと比較して、AUPRC指標は最大8.0%改善され、AUROC指標は8.1%改善され、精度は16.3%大幅に向上しました。
さらに分析を進めると、ベースライン モデルでは一貫したパフォーマンスの向上を達成できなかったことが明らかになりました。主な理由は、きめ細かいキュー情報をモデル化するには不十分であることです。例えば、KNNとK-Meansアルゴリズムは類似性を考慮した特徴空間では動作せず、DGLoSによって構築されるグローバルグラフは粗粒度であり、GRASPはコホート間のモデリングにのみ焦点を当てており、DEC、DEKM、IDCは医療セマンティクスを効果的にモデル化できません。これらの欠陥により、ベースラインモデルは患者の類似性をシミュレーションする際のパフォーマンスが低下し、バックボーンモデルにノイズを導入して全体的なパフォーマンスを低下させる可能性があります。


NeuralCohortは、従来の医療コホート構築手法と比較して、大きな利点も備えています。従来の手法では、性別、年齢、糖尿病診断、高血圧診断といった限定的な特徴に基づいてコホートを分割することがよくあります。この手法で生成されるコホートは比較的粒度が粗いため、コホートパターンマイニングのニーズを満たすことが難しく、異なる患者を同じコホートにまとめてしまいやすく、ノイズが発生しやすくなります。一方、NeuralCohortは、コホート内およびコホート間の患者のシーケンシャルな訪問レベル表現を用いることで、きめ細かなレベルで処理を行います。これにより、MIMIC-III データセットのコホートにおける患者の臨床的類似性が 23.5% 向上しました。

MIMIC-IIIデータセットにおける従来のコホートとNeuralCohortの比較
解釈可能性分析により、NeuralCohortの利点がさらに明らかになりました。Calinski-Harabaszスコアは、NeuralCohortによって生成されたコホートが、K-Meansなどの手法と比較して、長期LOSタスクにおいてCHスコアを18.7%-25.4%向上させることを示しています。t-SNEに基づく視覚的分析では、ベースラインモデルによって直接出力された表現には大きなクラスターの重複があるのに対し、NeuralCohortは下図に示すようにコホート情報を挿入していることも示されています。41.2% によって 8 つの対象コホートの識別が改善され、その中でも心血管疾患コホートや慢性代謝疾患コホートなどの臨床典型グループの特性境界が特に明確になりました。

臨床的には、NeuralCohort は、臨床結果と直接相関するコホート固有の特性を特定できるため、患者管理が大幅に強化されます。たとえば、t 検定によって特定された 4 つのコホートの固有の特性は、心血管疾患、慢性代謝および血液疾患、腎臓および尿路の問題、複雑な慢性および急性疾患など、さまざまな種類の患者集団をカバーしていました。
これらの特性を特定することで、病院は遠隔測定ベッド、心臓病の診察、糖尿病教育者、腎臓チームなどのリソースをより具体的に割り当て、利尿薬のタイムリーな使用、インスリン滴定、画像検査のスケジュール設定などの対応する介入措置を策定することができ、病院の効率と患者ケアの質が大幅に向上します。
産業界と研究機関の連携、双方向のEHRイノベーションエコシステム
電子健康記録(EHR)の表現学習とコホート分析の分野では、世界中の学術界とビジネス界が最先端の技術革新と臨床実践の革新を通じて医療データの価値の深化を推進し、精密医療の発展に新たな推進力を注入しています。
厦門大学の王暁麗教授チームが提案した MHGRL モデルは、マルチモーダル異種グラフを構築することで、EHR の内部構造と外部の医学知識を統合します。MIMIC-III などのデータセットでは、病気の予測精度が大幅に向上しました。このモデルが採用している逆時間アテンションメカニズムは、現在の訪問と履歴記録間の相関関係を強化します。これは、技術的なロジックにおいて NeuralCohort の事前コンテキスト キュー合成モジュールを反映しており、どちらも時系列情報のモデリングに重点を置いていることを反映しています。
コーネル大学のチームによって構築された GEMS モデルは、800 万件の実際の EHR データに基づいています。この研究は、コホート分析を臨床意思決定に直接応用できることを実証しました。グラフニューラルネットワークエンコーダーを用いて進行肺がん患者の104次元特徴ベクトルを取得し、クラスタリングモジュールと組み合わせることで、生存率に有意な差がある3つのサブフェノタイプを特定しました。全生存率予測のc指数は0.665に達し、従来のベースラインモデルを大きく上回りました。その技術的アプローチは、NeuralCohortのデュアルスケールコホート学習モジュールと方法論的に非常に一致しており、どちらも複雑なデータから臨床的に重要なコホート特徴をマイニングすることに重点を置いています。
産業界も目覚ましい成果を上げており、学術界の最先端技術を実用的な臨床応用ツールへと転換させています。例えば、英国NHSとヒポクラティックAIの共同研究であるPATHプログラムは、会話エージェントによる自動病歴収集と紹介確認により、専門医の診察の待ち時間を 35% 短縮できます。このEHRベースのインテリジェントトリアージシステムには、コホート分析モジュールが組み込まれており、高リスク患者群をリアルタイムで特定できます。例えば、自然言語処理によって臨床記録から「急性増悪を伴う慢性閉塞性肺疾患」といった複雑な特徴を抽出し、患者の優先順位を動的に調整することができます。
まとめると、学術界はアルゴリズムの革新を通じてより正確なコホートモデルを構築し、医療データマイニングの深みと幅を継続的に拡大してきました。一方、産業界は技術変革能力を活かし、これらの最先端技術を臨床現場で活用できるツールへと転換し、医療サービスの効率と質を向上させてきました。この双方向のイノベーションエコシステムは、医師がより正確な診断支援を受けるのに役立つだけでなく、集団特性から個人リスクの早期警告シグナルを発見し、疾病治療から健康管理への医療サービスモデルの変革を促進し、世界の医療システムの最適化と高度化を強力に支援することが期待されています。
参考記事:
1.https://cdmc.xmu.edu.cn/info/1002/3683.htm
2.https://mp.weixin.qq.com/s/Z1Wl0FIPHpwrvnNDCE5KwA
3.https://mp.weixin.qq.com/s/neCUoGm75mTPwjvlND5_sg