密歇根大学チーム、新アルゴリズムminiQuantで遺伝子異構体定量の難問を解決
新アルゴリズム miniQuant、遺伝子異形体定量の難題を解決 RNA測定領域で20年間蓄積されてきた技術が、重要な進展を遂げました。米ミシガン大学の区健輝教授率领の研究チームは『Nature Biotechnology』誌で新たなアルゴリズム miniQuant を発表し、遺伝子異形体(アリエル)の定量問題に科学的にアプローチしました。「この問題は10年以上議論されてきましたが、厳密な数学的定義やデータ科学的手法による解決策はなかったのです」と区教授はDeeptechに述べています。 一般的には、1つの遺伝子が1つのタンパク質に対応すると考えられていますが、実際には同一の遺伝子が可変スプライシングを通じて複数のmRNA異形体を生成します。これらは生命の複雑性を大幅に増加させる一方、その正確な表現量を定量分析することは難しい課題でした。現在主流の測定技術には第二世代と第三世代があり、前者はIlluminaのようなプラットフォームで短い読み出し(読み長約150塩基対)を大量に生成しますが、精度が低く、後者のPacBioやOxford Nanopore Technologies(ONT)は読み長が数万塩基対に及ぶ一方、生産性が低くコストが高い点が問題となっています。 これに対して、研究チームはK値という新しい指標を提案し、遺伝子異形体の定量における不確定性を数理的に定量化しました。具体的には、K値は読取り―異形体対応確率行列Aの最大と最小の正の特異値の比率を表します。この値が高く、遺伝子が複雑であるほど、定量エラーが生じやすいことが確認されました。 研究チームは、GTEx、TCGA、ENCODE連合から17,000を超える公開データセットを使用して大規模な分析を行い、K値の増加と平均絶対相対差(MARD)の中位数との明確な関連性を示しました。K値が1から25以上に増加すると、GTEx、TCGA、ENCODEデータセットでのMARDがそれぞれ0.1830、0.1559、0.1721上昇することがわかりました。この関連性は異なる生物学的状況やデータ品質でも一貫しており、K値が固有の定量エラー指標であることが証明されました。 これらの成果に基づき、チームはminiQuantソフトウェアを開発しました。miniQuantには2つのモードがあります:miniQuant-L は長読取りのみを使用し、miniQuant-H は長短読取りを結びつけるハイブリッドモードです。miniQuant-H は機械学習を使用し、各遺伝子の構造的特徴とデータ特徴に基づいて最適な長短読取りの重み付けを決定します。高K値の遺伝子では長読取りを重視し、低K値で低表現の遺伝子では短読取りを重視するよう設計されています。 例えば、K値が82.26で比較的高度に表現される遺伝子 VPS13D には0.75の長読取り重みが、K値が5.37で低表現の遺伝子 TCP11L2 には0.25の長読取り重みが割り当てられました。 複数のベンチマークテストでは、miniQuant-H の優れた性能が示されました。シミュレーションデータでは、さまざまな読み込み深さ組み合わせにおいて平均MARDが0.1249で、既存の短読み込みツール(0.1505-0.3555)や長読み込みツール(0.2515-0.9394)よりも優れています。実際のデータ検証では、LRGASP連合から提供された合成標準変異体(SIRV)データで、miniQuant-H は最低の平均エラーを記録しました。 また、miniQuant を人間の胚性幹細胞(ESC)の分化研究に適用したところ、咽頭内胚葉(PE)や原始生殖細胞様細胞(PGC)への分化に関連する遺伝子異形体の転換が明らかになりました。MAT2B遺伝子は全体的な表現量が stable であるにもかかわらず、その異形体の使用パターンが著しく変化しました。この転換は細胞のアポトーシス調節能力に影響を与える可能性があります。 研究者はGitHub上で miniQuant のオープンソース版を公開し、さまざまな測定プラットフォームと深さ組み合わせのプレトレーニングモデルを提供しています。コストの下落と精度向上につながる長読み込み技術の普及とともに、miniQuant が転写組解析の分野にさらなる正確さと経済性をもたらすことが期待されます。 参考文献: 1. Li, H., Wang, D., Gao, Q. et al. Improving gene isoform quantification with miniQuant. Nature Biotechnology (2025). https://doi.org/10.1038/s41587-025-02633-9