HyperAI超神経

コーネル大学のチームは、800万の実際のデータに基づいてグラフニューラルネットワークを使用して肺がん患者の生存を正確に予測し、3つの致命的なサブタイプを発見しました。

特色图像

10年前、CheckMate 017試験の結果は腫瘍学界に衝撃を与えました。 「ニューイングランド医学ジャーナル」や「米国医師会雑誌」などの雑誌では、PD-1阻害剤ニボルマブで治療した進行扁平上皮肺がん患者の生存データが大幅に改善されたことが何度も報告されており、全生存期間の中央値は化学療法群の6か月から9.2か月に延び、18か月生存率は化学療法群の2倍になった。この研究は免疫チェックポイント阻害剤(ICI)の時代の幕開けとなるものですが、進行性非小細胞肺がん(aNSCLC)の患者は免疫療法に対して異なる反応を示すという問題も明らかにしています。試験では、一部の患者の腫瘍は3年以上にわたり寛解を続けましたが、他の患者は数か月以内に病気の進行を経験しました。この治療反応の不均一性は、精密医療の時代には問題となっています。

肺がんの複雑さはその高い異質性に起因します。非小細胞肺がん(NSCLC)は肺がんの80%~85%を占めます。約75%患者は進行期に診断され、5年生存率はわずか26.4%です。腫瘍微小環境バイオマーカーの差次的発現、免疫細胞の異なる機能状態、および患者の多様な併存疾患により、病理学的状況は複雑になります。 ICI 治療を受けている患者は、PD-L1 の発現が高いため恩恵を受ける可能性がありますが、腫瘍変異負荷が低いために有効性が低い場合もあり、合併症も治療の選択肢や予後に影響を及ぼす可能性があります。

課題に対処するために、診断と治療計画は「画一的」から「正確な層別化」へと移行しつつあります。この変革のプロセスの中で、予測医療が徐々に登場してきました。その主な目標は、電子健康記録やオミックス情報などの多次元データを統合し、各患者に最も適切な治療計画をカスタマイズすることです。近年、大規模な生物医学データの継続的な蓄積と機械学習技術の急速な発展に伴い、研究者は治療への反応を予測するために、類似した特徴を持つ患者グループをクラスタ化する教師なし機械学習手法の使用を試み始めています。しかし残念なことに、従来の方法は実際の応用において限界があることが多いのです。グループ内の患者間で生存結果の一貫性を確保することは困難であり、臨床現場での層別化結果の応用価値は制限されます。

上記の問題を解決するために、コーネル大学とリジェネロン・ファーマシューティカルズは、グラフエンコード混合生存モデル (GEMS) を提案しました。患者の電子健康記録における複雑な関係はグラフニューラルネットワークを通じてコード化され、生存分析モデルと組み合わせて、一貫した特徴と生存結果を持つサブ表現型を特定しました。研究では、全生存率(OS)の予測において従来の方法よりも優れていることが判明し、異なる臨床的特徴と生存パターンを持つ3つのサブ表現型を特定し、肺がんの精密医療への新たな道を開いた。

関連する研究結果は、「実世界のデータと機械学習を用いた臨床結果の予測サブ表現型の特定」というタイトルで Nature Communication に掲載されました。

用紙のアドレス:

https://doi.org/10.1038/s41467-025-59092-8

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめており、大規模なデータ セットとツールも提供しています。

https://github.com/hyperai/awesome-ai4s

ConcertAIの大規模実世界データセットに基づく進行非小細胞肺がん患者コホートの構築

この研究では、米国腫瘍電子健康記録(EHR)データベースのConcertAI Patient360™ NSCLCデータセットを使用して、第一選択(1L)免疫チェックポイント阻害剤(ICI)治療を受けている進行非小細胞肺がん(aNSCLC)の患者コホートを構築しました。このデータセットは、ConcertAI ネットワークから抽出された、米国を拠点とする匿名化された患者レベルのデータセットであり、800 万人を超える固有の患者をカバーしています。全 50 州のコミュニティおよび大学診療所で治療を受けた患者を代表する 900 を超える腫瘍学および血液学のがんクリニックから、病気の再発日と種類、組織学、PD-L1 検査情報、腫瘍反応、ECOG-PS、合併症に関するデータを含むデータが抽出されました。

下の図に示すように、本研究では、2015 年 1 月から 2023 年 1 月までに組織学的に確認された非小細胞肺がん (NSCLC) の患者 (n=17,265) を選択し、遡及的観察コホートを構築しました。包含/除外基準と有効な全生存率(OS)記録のない患者の除外後、この研究には 4,666 人の患者が含まれ、患者は人口統計情報、臨床検査値、その他の変数を含む 104 次元のベクトルで表されました。

研究者らは、米国国勢調査局が定義した臨床施設の地理的地域に基づいて、コホートをモデル開発(北東部、南部、西部地域、n=3,225)と検証サブコホート(中西部地域、n=1,441)に分けました。これらのサブコホートの人口統計は似ており、検証サブコホートでは白人患者と地域医療機関の患者の割合が高くなっています。研究の観察期間は指標日の180日前でした。全生存期間(OS)は、インデックス日からあらゆる原因による死亡までの期間と定義され、無増悪生存期間(PFS)は、インデックス日から実際の世界での最初の進行イベントまたはあらゆる原因による死亡までの期間と定義されました。この研究の目的は、このデータセットの関連分析を通じて、進行性非小細胞肺がん患者の生存率予測などの問題を解決することです。

データセット標準の確立とデータの事前トレーニング

GEMSモデル構築:GNNに基づく進行非小細胞肺癌の生存サブフェノタイプの同定と予測性能の検証

この研究では、進行性非小細胞肺がん(aNSCLC)患者の実際の全生存率(OS)特性に関連する予測サブ表現型を識別するために GEMS モデルが設計されました。そのコア アーキテクチャには、GNN エンコーダー、クラスター モジュール、混合生存予測子が含まれます。

その中で、GNN エンコーダーは、患者の 104 次元の特徴ベクトル (人口統計、臨床検査、転移状態などの変数をカバー) のグラフ構造関係をキャプチャすることにより、高次の患者表現を効果的に抽出します。エンコードされた表現はクラスタリング モジュールに入力され、ハイブリッド モデルの基本コンポーネントとして生存予測値を持つサブ表現型を生成します。

GEMSモデルの展開とサブ表現型導出プロット

モデルトレーニングでは、まず開発コホート(n=3,225)をデータサポートとして使用し、一貫性インデックス(c-index)とペアワイズログランクスコアを評価指標として使用し、Cox比例ハザード回帰(CPH)、勾配ブースティング決定木(GBDT)、ニューラル生存クラスタリング(NSC)などの従来のベースラインモデルや、K平均法や階層的クラスタリングなどの教師なし手法と比較しました。

実験結果を次の表に示します。GEMS は全生存率の予測において優れた成績を収めました。平均 c 指数は 0.665 (95% CI: 0.662-0.667) に達し、最良のベースライン モデル GBDT の 0.652 を大幅に上回りました。ログランクスコアは 69.17 (95% CI: 58.98-76.98) で、NSC の 56.23 を大きく上回り、教師あり学習フレームワークによるデータ特徴の有効な使用が実証されました。

モデルスコアリング指標の比較結果

続いて、この研究では、患者とその GNN エンコーダーから得られた表現を視覚化することで、GNN エンコーダーが GEMS に与える影響をさらに特徴付けました。均一マニホールド近似および投影 (UMAP) が使用されます。下の図に示すように、均一多様体近似投影(UMAP)による視覚化により、GNN エンコーダーによって出力された患者表現空間では、総生存時間の異なる患者グループが明確に区別されている一方で、さまざまなタイプの患者が元の特徴空間に混在して分布していることがわかります。これは、複雑な特徴関係をモデル化するグラフニューラルネットワークの能力を直感的に反映しています。


患者のUMAP可視化
図 a: オリジナルの特徴の UMAP 視覚化。図b: GNNエンコーダによって得られた特徴のUMAP可視化

以下の図に示すように、研究者らはさらにこのモデルを使用して、生存率に大きな違いがある 3 つの予測サブ表現型を特定しました。サブフェノタイプ 1 (n=1335) は、女性の割合が高い (55,50%)、合併症が軽度、転移負荷が低いという特徴があり、平均全生存期間は 688 日、咳止め薬、β遮断薬の使用率、および骨/脳/副腎転移の発生率が最も低かった。サブフェノタイプ 2 (n=420) の生存曲線は、中期リスクの増加、中程度の合併症および転移負荷を示しました。サブ表現型 3 (n=1420) は、女性の割合が 35.21% で、平均全生存期間はわずか 321 日であり、複数の薬物療法、高い転移率 (肝転移 31.20%、骨転移 51.48%)、重度の合併症 (水および電解質障害 8.31%、腎異常 21.43%) を特徴とし、転移、合併症、検査値異常の最も複雑な同時発生パターンを示しました。

異なるサブ表現型の比較

* 図a:各サブフェノタイプの全生存率のカプラン・マイヤー曲線

* 図b:各サブタイプの薬剤投与率のサンバースト図

* 図c: 転移(左)、合併症(中央)、および異常な臨床的特徴の分類の違いを示すコード図

* 図d: 異なるサブ表現型の発生率

異なるサブ表現型間の異なる特性をさらに理解するために、本研究ではサブ表現型間の各変数の違いをテストしました。下の図に示すように、主要予測因子分析により、Eastern Cooperative Oncology Group のパフォーマンス ステータス (ECOG パフォーマンス) と転移部位の総数 (合計転移数) がサブフェノタイプを区別するための中核指標であることが示されました。臨床検査値の指標では、好中球対リンパ球比 (NLR) および好中球対単球対リンパ球比 (NMLR) がサブフェノタイプ 2 の特徴的なパラメータである一方、サブフェノタイプ 1 は正常なアルブミン値 (WBC 数) および高いヘマトクリット値 (ヘマトクリット) と関連し、サブフェノタイプ 3 は心拍数の増加 (心拍数 bpm)、酸素飽和度の低下 (酸素飽和度)、およびアルカリホスファターゼの増加 (アルカリホスファターゼ) などの指標と密接に関連しています。

上記の結果は次のことを示していますGEMSモデルは、非小細胞肺癌患者の生存予後を正確に層別化するだけでなく、さらに、サブ表現型特性の分析を通じて、実際のデータに基づいた臨床意思決定の基礎を提供し、個別化された治療戦略を策定します。

最も重要な15の機能分析

肺がんの精密診断と治療における世界的な革命: AI とマルチオミクス技術は生存率の展望をどのように変えるのでしょうか?

肺がんの診断と治療の分野では、人工知能 (AI) と精密医療による変革が臨床診療を大きく変えつつあります。カナダのトロント大学の研究チームは、循環腫瘍DNA中のEGFR変異を分析するAI支援血液検査技術を開発した。機械学習と臨床データを組み合わせることで、標的治療の恩恵を受ける人の認識率が効果的に向上します。これにより、EGFR感受性変異を有する患者がEGFRチロシンキナーゼ阻害剤(TKI)治療を正確に受けられるようになり、無増悪生存期間の中央値が大幅に延長されます。
論文リンク:https://pubmed.ncbi.nlm.nih.gov/35624472/

ユニバーシティ・カレッジ・ロンドンの「evA.I. システム」は、27 次元の臨床データを使用します。免疫チェックポイント阻害剤 (ICI) の反応を正確に予測し、薬剤耐性集団の特定に役立ちます。それにより免疫療法の有効性が向上し、全生存期間の中央値が延長されます。
論文リンク:https://pmc.ncbi.nlm.nih.gov/articles/PMC10957591/

中国では、進行性非小細胞肺がんの精密診断と治療の研究において、大学や企業から革新的な成果が次々と生まれています。例えば同済大学の張鵬教授チームと中国科学院チームが、初の国際小細胞肺がんタンパク質ゲノムマップ研究を完了した。112のサンプルの多次元オミクスデータを統合することにより、HMGB3タンパク質の高発現が予後不良と関連していることを発見し、ZFHX3変異状態に基づく免疫療法の利益予測モデルを確立し、分子タイピングに基づく精密治療への新たな道を切り開きました。
論文リンク:https://doi.org/10.1016/j.cell.2023.12.004

清華大学深圳国際大学院と深圳人民病院が共同で「AI+インテリジェント病理学」システムを開発した。3,000件以上の難症例をディープラーニングした結果、97%の精度で低分化肺がんの組織学的型を正確に識別できるようになりました。標的療法の意思決定サイクルを短縮します。同氏のチームが血液糖タンパク質マーカーに基づいて開発したAI予測モデルは、肺がんリスクを3年先に警告することができ、臨床的に検証された精度率は92%を超えており、超早期スクリーニングのための非侵襲的なソリューションを提供します。
論文リンク:https://www.nature.com/articles/s41598-025-98731-4

参考記事:
1.https://mp.weixin.qq.com/s/LBcVbQUpTYRnKZ5I1KY_VA

2.https://doi.org/10.1038/s41467-025-59092-8