Command Palette
Search for a command to run...
100の大学が、世界最大規模の複数コホートを対象としたプロテオゲノミクス研究を開始した。この研究は、約8万人の参加者から得られたデータに基づいて、病気の原因となる遺伝子を解明し、既存の薬剤の用途転換を図るものである。

ヒトゲノムは、外見、身長、体格、病気のリスクなど、あらゆる遺伝情報を記録した、生命の完全な取扱説明書のようなものです。しかし、この取扱説明書を解読するのは簡単なプロセスではありません。特定の病気にかかりやすくする病原性突然変異など、さまざまな「予期せぬ出来事」が発生する可能性があります。さらに難しいのは…病原性変異のほとんどは、タンパク質を直接コードしないゲノムの非コード領域に位置している。この「ブラックボックス」メカニズムは、どの遺伝子がどのようなメカニズムで病気を引き起こすかを特定しないため、病原性遺伝子とメカニズムを推測する能力を著しく制限します。そして、遺伝子機能を活性化させる直接の実行者として、ヒトの血液中を循環する数千種類のタンパク質は、ブラックボックスのようなメカニズムを解明し、非コード領域の変異と疾患関連メカニズムを結びつける上で重要な鍵となる。
現在、プロテオゲノミクス研究は臨床病態生理学や潜在的な薬剤標的において大きな進歩を遂げていますが、ヒト生物学における体系的かつ大規模な応用にはまだ限界があります。まず、これまでの研究はほぼ完全に近位シス作用性変異体(すなわち、シスタンパク質量的形質遺伝子座、cis-pQTL)に焦点を当ててきました。非コード領域の変異は調節領域に存在する可能性があり、その結果、複数の近傍のコード遺伝子に直接影響を与える。また、ゲノム内の他の場所にある遺伝子によってコードされるタンパク質を遠隔的に制御することも可能であり、疾患の診断や予後に影響を与えるタンパク質バイオマーカーの多遺伝子遺伝構造に関する過去の研究は依然として不十分である。最後に、タンパク質の量的形質遺伝子座を安定的に、かつ一般的に同定するためには、異なる集団での繰り返し検証が必要である。現在、広範囲プロテオミクスの分野では、このようなヒトを対象とした検証研究はほとんど行われていない。
これを考慮して、ロンドン大学クイーン・メアリー校やケンブリッジ大学を含む100以上の大学および研究機関からなるチームが、これまでで世界最大規模の複数コホートを対象としたプロテオゲノミクス研究を発表した。38の独立した研究コホートと合計78,664人の被験者を対象とした、タンパク質血糖ゲノムの大規模なメタ解析に基づき、24,738のタンパク質の量的形質部位が体系的に同定され、1,116の循環タンパク質と関連付けられ、タンパク質レベルでの広範な近接および距離の遺伝的制御特性が包括的に明らかになった。
機械学習を用いて、循環タンパク質の量を制御する主要な経路、細胞型、組織由来をさらに解析し、タンパク質制御ネットワークにおけるN-グリコシル化の中核的な役割を明らかにした。さらに、タンパク質のシス制御とトランス制御の違いを区別することで、異なる生物学的表現型の本質的なメカニズムを効果的に解明し、特定の疾患に対する潜在的なタンパク質医薬品標的のスクリーニングの根拠を提供した。加えて、トランス部位の三角測量解析により、「薬剤再利用」に関するより深い証拠が明らかになった。
「複数コホートにおけるプロテオゲノム解析により、プロテオームおよび疾患全体にわたる遺伝的影響が明らかになった」と題された関連研究結果は、Cell誌に掲載された。
研究のハイライト:
* これまでに実施された中で最大規模の複数コホートによるプロテオゲノミクス研究であり、38の独立した研究コホートを含み、合計78,664人の参加者が参加した。
* 24,738個のタンパク質の量的形質遺伝子座を特定し、それらを1,116個の循環タンパク質と関連付け、タンパク質レベルでの広範囲にわたる近接および長距離の遺伝子制御特性を包括的に明らかにした。
* この研究は、循環タンパク質の遺伝子レベルでの制御メカニズムを体系的に解明し、ヒト疾患の分子メカニズムの理解、革新的な治療標的の特定、および薬剤再利用研究の実施のための重要な理論的基盤とデータリソースを提供する。

用紙のアドレス:
https://www.cell.com/cell/fulltext/S0092-8674(26)00385-5
最大規模のコアデータ:38の国際コホート、約8万人の参加者
本研究は、世界最大規模の複数コホートを対象としたプロテオゲノミクス・メタ解析である。38の国際コホートを統合し、ヨーロッパ系の78,664人の参加者を対象とし、Olink社のハイスループットプロテオミクス技術を用いて1,161種類の血液タンパク質標的を解析した結果、24,738個の精密にマッピングされたpQTL(5,040個のシスpQTLと19,698個のトランスpQTLを含む)が同定され、1,116個の有効タンパク質の遺伝子制御データが得られた。

SCALLOPメタ分析:このデータには、37のコホートと1,194の血液タンパク質標的の全ゲノム統計が含まれており、参加者の大多数はヨーロッパ系である。抗体ベースのプロテオミクスアッセイは、Olink社が提供する13種類のTarget-96アッセイパネルのうち少なくとも1つを使用して実施された。各パネルは、心血管系、免疫系、炎症系、神経系、代謝系の分野を網羅する92種類のタンパク質標的を検出できる。
英国バイオバンク(UKBB):本研究には、ヨーロッパ系の子孫である48,017人が参加した。このデータについて、研究で使用されたプロテオミクス測定は、Olink Explore 1536プラットフォームを介して生成され、1,463種類のタンパク質標的を測定するために抗体ベースの技術も用いられた。
段階的機械学習分類器
機械学習モデルを用いた本研究の核心的な目的は、主要組織適合性複合体(MHC)領域外に位置するすべてのトランスpQTLに「効果遺伝子」を体系的かつ正確に大規模に割り当てることである。これは、血液タンパク質レベルに関連するタンパク質量的形質遺伝子座から離れたゲノム領域にある効果遺伝子の位置を特定するという長年の課題に取り組むものである。この目的のために、ProGeMアーキテクチャに触発され、研究者たちは段階的な機械学習分類器を構築した。
まず、特徴量と注釈のソースに関して、研究者らは各遺伝子変異体またはその代替変異体(r² > 0.6)について、多次元的な生物学的およびゲノム的注釈を統合した。変異体レベルの注釈には、1 Mbの塩基ウィンドウ内での変異体とゲノム間の距離、および変異効果予測(VEP)ツールに基づいて推測される潜在的な機能的影響が含まれる。
同時に、1 Mb ベース ウィンドウ内の各遺伝子について遺伝子レベルの注釈が行われました。これには、GTEx v8 タンパク質存在量-遺伝子発現に基づく QTL 共局在の関連証拠の取得、希少変異負荷の関連付け、OmnipathR バージョン 3.10.1 パッケージを使用した文献のレビュー、トランス遺伝子によってコードされるシス タンパク質に対応するリガンド-受容体/タンパク質複合体が存在するかどうかの判定、および KEGG/REACTOME 注釈情報に基づく関連遺伝子が同じ生物学的経路に関与しているかどうかの判定が含まれます。
次に、機械学習モデルに必要なトレーニングセットを構築しますが、遺伝子割り当てに広く使用されているゴールドスタンダード変異体がないため、研究者たちは、生物学とゲノム学に関する既存の知識を用いて、部分的に独立した3つの「推定真陽性(PTP)」のセットを取得した。バイアスを避けるため、各 PTP セット内では 1 つのシス タンパク質のみが保持され、1 Mb ウィンドウ内の他の遺伝子はネガティブ サンプルとみなされました。具体的には、リガンド-受容体ペアをコードするトランス遺伝子、またはシス タンパク質と高信頼度タンパク質複合体を形成するトランス遺伝子 (n = 540)、機能的バリアントにマッピングされたセンチネル トランス pQTL (n = 1747)、および有意な希少バリアント負荷を持つトランス遺伝子 (n = 1049) が含まれます。次に、トレーニング セットとテスト セットはゲノム領域に基づいて 7:3 の比率に分割され、安定性を確保するために結果が 10 回繰り返されました。
さらに、モデルアーキテクチャと学習プロセスに関して、本研究のモデルアルゴリズムはランダムフォレスト分類器を採用しています。10個の学習データセットを入力し、3分割交差検証を繰り返し実行し、サブサンプリング戦略と組み合わせることで、学習中のデータセットの不均衡という問題を解決しています。モデルのトレーニングは、R言語のcaret v6.0.94ツールキットを使用して実施され、その後、各トレーニングセットにおいて、カッパスコア評価によって最も性能の高いランダムフォレストモデルが選択された。
次に、各仮想真陽性データセットに対応する10個のランダムフォレスト分類器を用いて、トランスpQTLの候補エフェクター遺伝子を1つずつスコアリングした。まず、同じ仮想真陽性データセットに対する10個の分類器の中央値スコアを取得し、次に3つの予測スコアセットを合計した。同時に、各仮想真陽性データセットの分類モデルを構築する際には、真陽性サンプルを定義するために使用した特徴変数を削除した。
最終的に、3つの分類モデルすべてが安定した信頼性の高い性能を示し、カッパ係数の中央値は0.54から0.57の範囲であった。
病原性メカニズムを解明することは、薬剤開発や既存薬の用途変更のための遺伝学的証拠を提供する。
この研究は、38の国際的なコホートに基づき、78,664人の参加者を対象に、1,161の血液タンパク質を標的としたマルチコホートタンパク質ゲノムメタ解析を実施し、循環タンパク質レベルの遺伝的制御パターンと疾患との関連性を体系的に解明した。
pQTLの同定と特性
この研究では、14,690 個の地域的センチネル変異が特定され、ベイズ精密マッピングにより、5,040 個のシス pQTL と 19,698 個のトランス pQTL を含む 24,738 個の独立した信頼性の高い変異セットが得られ、1,116 個のタンパク質ターゲットをカバーしています。これらのうち、シス pQTL は 87.1% のタンパク質に存在し、トランス pQTL は 94.1% のタンパク質に存在していました。82.3% のシス pQTL と 83.3% のトランス pQTL は、新たに発見された 278 個のシス pQTL と 4,013 個のトランス pQTL を含む高信頼度サイトでした。さらに、非ヨーロッパ系祖先コホートでは、特定されたサイトの効果量はヨーロッパ系コホートと中程度の相関を示しました (r = 0.6)。これは、結果が様々な集団間で頑健であることを検証するものである。

SCALLOPおよびUKBBメタ解析におけるタンパク質定量的形質遺伝子座の精密な位置特定
さらに、血中タンパク質レベルの変動に対する遺伝子座の説明力には大きな違いがあります。cis-pQTLは平均して8.41 TP3Tのタンパク質変動を説明し、これはtrans-pQTLよりも有意に高い値です。しかし、ICAM2やFUCA1などのタンパク質は主にtrans-pQTLによって制御されており、それぞれ52.71 TP3Tと68.41 TP3Tの説明力を持つ一方、cis-pQTLはわずか0.31 TP3Tと6.31 TP3Tしか説明しません。
さらに、261個のタンパク質標的について詳細な観察を行った結果、それらのpQTL変異の説明力と多遺伝子遺伝率との間に有意な線形相関は見られなかった。このことから、本研究はこれらのタンパク質のpQTLの同定においてほぼ飽和状態に達したと考えられる。
遺伝子制御下におけるタンパク質標的の特性

ゼロ過剰ポアソン回帰モデルに基づく、pQTLの存在および量に関連するタンパク質特性。
ジスルフィド結合と膜貫通ドメインを含むタンパク質は、有意に多くのpQTLを有しており、これがこれらのタンパク質が遺伝的に制御されやすい理由を説明する可能性がある。一方、タンパク質コード遺伝子の機能的制約の強さは、cis-pQTLの数と有意に負の相関関係にある。
トランスpQTLを多数持つタンパク質は、グリコシル化や硫酸化などの分泌タンパク質の特徴を顕著に有しているが、亜鉛フィンガー構造やDNA結合ドメインなどの細胞内タンパク質の特徴を欠いている。これは、循環タンパク質の長距離遺伝子制御が分泌経路と密接に関連していることを示している。
トランスpQTLエフェクター遺伝子および制御経路の解析
機械学習フレームワークに既存の生物学的知識を統合した結果、トランスpQTL(n = 11,261)の半数以上について、少なくとも1つのエフェクター遺伝子が中程度の信頼度で同定され、そのうち1,534は高い信頼度で割り当てられました。また、部位の3分の2(n = 13,881)については、候補スコアの遺伝子間の分布から、単一の原因遺伝子が最も可能性の高い病原性遺伝子であることが示されました。

機能濃縮分析の結果、トランス効果遺伝子は、アスパラギンN-グリコシル化経路(143個のタンパク質標的を含む)や血小板活性化(41個のタンパク質標的を含む)などに有意に濃縮されていることが示された。N-グリコシル化は、最も一般的で中心的な調節経路である。
細胞および組織の濃縮結果から、トランス効果遺伝子は主に肝細胞、ナチュラルキラー細胞、内皮細胞、およびII型肺胞細胞で高発現していることが示され、肝臓と免疫細胞が循環タンパク質の遠隔調節における重要な部位であることが明らかになった。44組のタンパク質-組織ペアと76組のタンパク質-細胞型ペアは非古典的な分泌起源であり、タンパク質恒常性調節における臓器間コミュニケーションの重要な役割が確認された。
分子レベルおよび表現型レベルでの多面的効果
同定されたすべての独立したpQTLのうち、43.41 TP3Tが多面的効果を示し、トランスpQTLはシスpQTLよりも有意に高い多面的効果を示した。その後の研究では、多面的遺伝子変異を「分子多面的」、「表現型多面的」、「非特異的多面的」の3つのタイプに分類した。半数以上(533個中332個)が表現型多面的効果を示した。特に肝細胞ではその発現が2倍に増強され、タンパク質複合体、リガンド-受容体相互作用、および経路の相乗効果を介して標的タンパク質を優先的に制御した。

285個の多面的pQTLは疾患GWAS部位と重複しており、それらに関連するタンパク質は特定の経路に有意に濃縮されているため、疾患GWAS部位のメカニズムを解明するための新たな手がかりが得られる。
シス調節とトランス調節下における疾患表現型の違い
研究者らは、特定された300のcis-pQTL駆動型タンパク質-疾患関連性と、FinnGenプロジェクトの700を超える疾患データセットを組み合わせた。これらの関連性のうち、メンデルランダム化(MR)と遺伝的リスクシグナルの両方を捉えた統計的共局在解析が得られたのはわずか73件であった。このことから、潜在的な疾患原因遺伝子の優先順位付けを行う際には、補完的な証拠が必要であることが示唆される。
評価可能な115の関連性のうち、31は一貫したシスおよびトランス調節効果を示し、41は裏付けとなる証拠がなく、14は反対の効果を示しており、シス近位調節とトランス遠位調節が疾患表現型に及ぼす影響に有意な差があることを示している。
遺伝子推論および観察研究におけるタンパク質と疾患の関連性分析
本研究では、UKBB研究に参加した52,164人の観察データと、PanBioデータベースに登録された129万人以上の遺伝子データ(517の疾患を網羅)を統合しました。信頼性の高い193の遺伝子関連のうち、観察研究で一貫して裏付けられたのはわずか52でした。また、有意な観察関連52,887のうち、遺伝学的証拠が得られたTP3Tはわずか0.061でした。注目すべきは、血液中のフリンタンパク質が、遺伝学的研究と観察研究の両方で高血圧、心筋梗塞、心房細動と一貫して関連付けられている数少ない標的の1つであり、創薬開発におけるその潜在的な価値が明らかになったことです。
trans-pQTLは疾患バイオマーカーの発見と薬剤標的の変更を導く
901を超えるTP3T疾患タンパク質バイオマーカー(307疾患中280疾患)がトランスpQTL関連タンパク質に有意に濃縮されており、トランス調節が疾患タンパク質バイオマーカーの中核的な遺伝的基盤であることが確認された。この研究では、トランスpQTLであるTYK2遺伝子のミスセンス変異rs34536443が、BST2やCXCL9/10/11などの複数の炎症性タンパク質を調節することが明らかになった。これらのタンパク質の高レベルは、関節リウマチ、乾癬、自己免疫性甲状腺炎のリスク増加と関連しており、自己免疫疾患に対するTYK2阻害剤の用途変更の遺伝学的証拠を提供する。
結論
本研究は、世界最大規模のマルチコホートプロテオゲノム解析に基づき、ヒト循環プロテオームの遺伝子制御パターンを体系的に解明した。シス制御のみに焦点を当てていた従来の研究の限界を打ち破り、大規模サンプルレベルで循環タンパク質量の制御におけるトランス遺伝子制御の重要な役割を初めて包括的に明らかにした。さらに、機械学習を用いてエフェクター遺伝子を正確に特定し、N結合型糖鎖修飾や血小板生物学といったコア経路、および肝臓や免疫細胞といった重要な制御部位を明らかにした。
本研究には、プロテオミクス技術が循環タンパク質のサブタイプや翻訳後修飾の一部しかカバーしていないこと、対象集団が主にヨーロッパ系であり、より多くの民族グループに拡大する必要があることなど、いくつかの限界があるものの、非コード遺伝子変異、循環タンパク質、疾患メカニズムを結びつける包括的な枠組みを確立している。これは、複雑な疾患の分子メカニズムを解明するための新たな視点を提供するだけでなく、血漿フリンやTYK2などの重要な標的を遺伝学的証拠によって特定し、革新的な薬剤開発や薬剤再利用のための信頼性の高い遺伝学的証拠を提供するとともに、プロテオゲノミクスの基礎研究から臨床応用への重要な一歩を促進するものである。








