HyperAI超神経

山東理工大学と他の研究者は、複数の植物トランスクリプトームデータを統合し、種間lncRNA予測精度が最大96%のPlantLncBoostモデルを構築した。

特色图像

植物科学の分野では、長鎖非コードRNA(lncRNA)の研究が徐々に注目を集めています。2020年に発表された植物lncRNA研究に関する論文では、lncRNAが植物の成長、発達、そして環境適応において重要な役割を果たしていることが指摘されています。例えば、一部のlncRNAはタンパク質と相互作用することで植物の開花時期を制御し、それによって植物の生殖戦略に影響を与えることが研究で明らかになっています。この微細な制御機構は、植物が気候変動などの環境圧力にどのように対処するかを理解する上で非常に重要です。

技術の進歩に伴い、植物のlncRNAがますます多く同定され、特徴づけられています。しかし、異なる種間でのlncRNAの配列保存性が低いため、機械学習モデルの汎化能力に大きな課題が生じています。初期に広く使用されていたCPCツールとCPATツールを例に挙げると、Poaceae科とLeguminosae科の植物間のクロスバリデーション精度は、相同種と比較して35%~40%低下しており、配列特徴の汎化能力が不十分であるという根本的な問題が露呈しています。ブースティング モデル (XGBoost や LightGBM など) は、高次元データを処理する際に優れたオーバーフィッティング防止パフォーマンスを示しますが、既存の研究では特徴エンジニアリングの体系的な最適化がまだ欠けています。科学者たちは、植物におけるlncRNAを正確に予測・解析するためには、この多様性に適応できる新たな手法の開発が必要であることを認識しています。近年、研究者たちは、モデル選択、ハイパーパラメータ最適化、特徴抽出など、lncRNAの同定精度を向上させるための一連の戦略を提案しています。

最近、山東理工大学は北京林業大学、広東省農業科学院、サンパウロ大学、ロザリンド・フランクリン医学大学、ウメオ大学などの研究機関と共同で学際的なチームを結成し、植物lncRNAの同定において重要な技術的ブレークスルーを達成しました。この研究は、モデル選択、ハイパーパラメータ最適化、特徴量エンジニアリングという3つの主要な側面に焦点を当てています。フーリエ変換やシャノンエントロピーなどの数学理論に基づく 219 個の新しい配列記述子が初めて特徴空間に組み込まれ、種間の識別機能を備えた 3 つのコアパラメータが、再帰的特徴除去 (RFE) アルゴリズムを通じて 1,652 個の候補特徴から選別されました。これを基に構築された PlantLncBoost モデルは、異なる科および属の 12 の植物データ セットのクロス検証で平均 91.7% の予測精度を達成しました。これは、既存の主流ツールに比べて 18.2% の改善であり、植物 lncRNA 識別の一般化問題に対する体系的なソリューションを提供します。

関連する研究結果は、「PlantLncBoost:植物のlncRNA識別のための主要な特徴と精度および一般化の大幅な改善」というタイトルで学術誌New Phytologistに掲載されました。

用紙のアドレス: 

https://go.hyper.ai/F7pkc

AIフロンティアに関するその他の論文:

https://go.hyper.ai/owxf6

データセット: 多元異種植物トランスクリプトームデータの統合と特徴システムの構築

データ インフラストラクチャの構築に関しては、研究チームは、モデルの開発と検証をサポートするために、複数のソースの異種植物トランスクリプトーム データを統合しました。

この研究のトレーニングに使用されたコアデータセットは、クスノキ、シロイヌナズナ、イネを含む 9 つの被子植物の lncRNA および mRNA 配列をカバーしています。GreeNC データベースから合計 24,152 個の lncRNA 配列が取得されました。データベースでは、データの高い信頼性を確保するために厳格な品質管理基準を採用しています。同等の数の mRNA タンパク質配列は Phytozome v.13 データベースから取得されました。データ前処理段階では、CD-HIT-EST アルゴリズムを使用して、80% を超える配列類似性を持つ冗長な転写産物を削除し、あいまいなヌクレオチド「N」を含むノイズ配列を排除して、バランスのとれた純粋な教師あり学習トレーニング セットを形成しました。

モデルのパフォーマンス評価段階では、研究チームは 2 つの主要なテスト セットを構築しました。1つ目は包括的なテストセットで、トウモロコシやブドウなどの被子植物から、クラミドモナス・ラインハルトイなどの藻類、ヒメツリガネゴケなどのコケ類まで、20種のlncRNA配列が含まれています。そのうち13種はトレーニングセットには含まれていませんでした。種の範囲は広く、植物界の多くの主要な分野にまたがっています。2つ目は、信頼性の高い実験検証セットです。このデータセットは、EVLncRNAsデータベースとPlncDBデータベースの内容を統合しています。重複排除の結果、最終的に20種の植物を含む358個の固有のlncRNAが保持されました。そのうち12種の植物のlncRNA配列はトレーニングおよびテストプロセスに含まれておらず、これによりモデルの種間一般化能力の厳格なテストが保証されています。これらのデータは、体系的な冗長フィルタリング、品質スクリーニング、およびグループ間のカバレッジを経て、トレーニング データの正確性を保証するだけでなく、多層検証システムを構築します。

また、堅牢な lncRNA モデルをトレーニングするための主要な特徴を特定するために、研究チームはトレーニング データセットから 1,662 個の特徴のセットを抽出しました。この一連の機能は、ORFカバレッジ、k-mer頻度、フィケットスコアといった従来の配列ベースの指標に加え、複雑な配列パターンを捉えるために設計された新しい数学的特徴もカバーしています。具体的には、そのうち、1,433 の特徴は基本シーケンス記述子、133 の特徴は数値シーケンス マッピングとフーリエ変換から得られ、78 の特徴は複雑ネットワークから得られ、19 の特徴はシャノンおよびタリスのエントロピーから得られます。これらの機能の包括性と多様性は、モデルのトレーニングと最適化のための豊富な情報基盤を提供し、植物 lncRNA を識別するモデルの能力の向上に役立ちます。

モデルトレーニング用のlncRNAおよびmRNAデータ

PlantLncBoostアルゴリズム: 効率的な植物lncRNA予測モデルを構築するための協調最適化機能

研究チームは、植物の長鎖非コードRNA(lncRNA)予測モデルPlantLncBoostの構築過程で、アルゴリズムのパフォーマンス比較と機能エンジニアリングの最適化を通じて、効率的かつ正確なモデル開発を実現しました。

PlantLncBoostの開発プロセス

アルゴリズムの選択段階では、研究チームは 5 段階のクロス検証法を使用して、CatBoost、XGBoost、LightGBM の 3 つの勾配ブースティング アルゴリズムの包括的なパフォーマンス評価を実施しました。結果は、精度 (93.92%)、感度 (99.83%)、F1 スコア (94.30%) などの主要な指標において、CatBoost が他の 2 つのアルゴリズムを大幅に上回っていることを示しています。

さらに、CatBoost のハイパーパラメータの最適化にはわずか 14.45 分しかかかりませんでした。XGBoostの164.18分、LightGBMの55.67分と比較すると、圧倒的な効率性を示しています。同時に、CatBoostはモデル構築時間と予測速度においてもそれぞれ19.41分と10秒未満と優れたパフォーマンスを発揮し、大規模なゲノムデータの処理に最適です。

特徴選択段階では、研究チームはランダム フォレスト重要度 (RFI) 戦略を使用して、1,662 個の候補特徴からコア変数を選別しました。この方法で構築されたモデルは、5 倍交差検証で 94.21% の精度と 94.56% の F1 スコアを達成し、ANOVA などの従来のフィルタリング方法に基づくモデル (精度 75%-79%) を大幅に上回りました。

さまざまな特徴選択方法の比較評価

研究チームは、モデル評価を通じて上位1~20の特徴のモデル性能をさらに評価しました。下の図に示すように、RFI-3モデルのORFカバレッジ、複素フーリエ平均、原子フーリエ振幅のみが、モデルのパフォーマンスは最高に達し、精度と F1 スコアはそれぞれ 94.35% と 94.68% に達しました。注目すべきは、特徴の数が 3 を超えるとモデルのパフォーマンスが大幅に低下することであり、これは「軽量特徴セット」の有効性を検証するものです。

RFI法と異なる定量的特徴に基づく比較評価

ORFカバレッジは、古典的な生物学的特徴として、lncRNAとmRNAのオープンリーディングフレームの比率の本質的な違いを利用しています。例えば、シロイヌナズナでは、lncRNAのピークORFカバレッジは約0.2ですが、mRNAのORFカバレッジは0.7にも達します。下の図に示すように、この特徴はモデルに基本的な識別能力を提供します。複素フーリエ平均と原子フーリエ振幅は、フーリエ変換に基づく革新的な数学的特徴であり、複素符号化と原子番号符号化技術を通じて、周波数領域の信号と配列の構造特性を捉えます。シロイヌナズナ、イネ(Oryza sativa)、ポプラ(Populus trichocarpa)などのモデル植物の主成分分析では、これら 2 つの特徴によって支配される最初の主成分は、97% の分類の変動を説明しました。これは、ORF カバレッジによって寄与される 2 番目の主成分を補完し、種間堅牢な識別次元を構成しました。

3つのモデル種の3つの主要な特徴に基づくlncRNAとmRNAの主成分分析

ファイナル、PlantLncBoost モデルは、CatBoost アルゴリズムの効率的な学習能力と 3 つのコア機能の識別上の利点を統合します。10倍交差検証において、本モデルはLncFinder-plantやCPAT-plantといった既存の主流ツールを、94.35%の精度と99.96%の感度といった主要指標で凌駕しました。PlantLncBoostは「軽量な特徴セット+高性能アルゴリズム」という革新的なアーキテクチャを構築し、植物lncRNAの正確な同定において生物学的解釈可能性と工学的実用性を兼ね備えたソリューションを提供します。大規模ゲノムデータ分析のニーズを満たし、種を超えた植物lncRNAの正確な同定のための強力な新しいツールを提供します。

多段階の実験検証により、PlantLncBoostが種間予測性能においてトップクラスであることが示された。

モデルのパフォーマンス検証の段階で、研究チームは、種間の一般化と信頼性の観点から植物lncRNA予測のニーズを満たすために、多段階の実験システムを慎重に設計しました。

まず、研究チームは、種子植物、コケ類、古細菌を含む20種類の多様な植物を含むテストデータセットに基づき、PlantLncBoostをLncFinder-plantやCPAT-plantを含む9つの主流モデルと比較しました。下の図に示すように、実験結果は以下のとおりです。PlantLncBoostは、感度(98.42%)、特異度(94.93%)、精度(96.63%)などのコア指標で総合的に優位性を示し、ROC曲線は理想的な予測領域に近づきました(AUCは98.35%に達しました)。

20の植物データセットにおける10のlncRNA同定ツールの性能評価

特に、ほとんどの種では、次の表に示すように、PlantLncBoost は、90% 以上の特異度を維持しながら、ほぼ 100% の感度を実現し、「感度は高いが特異度は低い」という従来のモデルのパフォーマンスボトルネックをうまく突破しました。対照的に、CPC2 や PLEK-plant などのツールの精度は 80% と 90% の間にあり、複雑な植物系統データへの適応性が不十分であることがわかります。

20の植物データセットにおける10のlncRNA同定法の全体的なパフォーマンス

研究チームは、lncRNAの実験的検証を厳密に行うため、358個の信頼性の高い転写産物を含むデータセットを使用しました。その結果、PlantLncBoost は 357 個の lncRNA を正常に識別し (検出率 99.72%)、LncFinder-plant で第 1 位になりました。CPAT-plantは99.16%の検出率で僅差で続きました。唯一未同定の小麦lncRNA(TalncRNA18)は、遡及解析により、元のアノテーションが時代遅れのORF検出ツールに依存していたことが判明しました。一方、最新の多機能モデルでは、このlncRNAは長いORF(387アミノ酸からなるポリペプチドをコード)を持つと予測されていました。これは、この転写産物が誤って分類されたコーディングRNAに属する可能性があることを示唆しており、PlantLncBoostの予測の正確さを間接的に裏付けています。

PlantLncBoost は、マルチレベルの実験データを統合することで、クロス進化グループ予測と高信頼性検証セットの両方で優れた安定性と精度を実証し、植物 lncRNA 識別の分野で先進的な地位を確立しました。

大学と企業が協力し、植物lncRNAの研究と応用における画期的な進歩を推進

実際、植物の長鎖非コードRNA(lncRNA)研究の分野では、大学の科学研究と企業のイノベーションが相乗的なブレークスルーのトレンドを形成しています。

例えば、北京大学生命科学学院の鄧星旺氏と朱丹夢氏が率いるチームは、植物特異的な非コードRNAであるHID1を研究した。アラビドプシスでは、HID1 遺伝子座の 1.8 kb 下流に機能的に冗長な相同遺伝子 HIL1 が存在することが分かりました。最終的に、非コードRNA HID1相同遺伝子HIL1の選択的転写阻害の分子メカニズムが解明され、その研究成果は米国科学アカデミー紀要に掲載されました。

2024年にフランスのパリ・サクレー大学のソレダッド・トラウベニクのチームが「植物生理学」誌に発表したレビュー研究によると、遺伝子発現解析とRNAシーケンシング技術により、COOLAIR lncRNAが二次構造を変化させることで、シロイヌナズナ春化反応における鍵遺伝子FLCの発現を制御していることが判明しました。低温ストレス下でのその動的調節モードは、作物のストレス耐性育種の新たなターゲットとなります。

論文リンク:

doi.org/10.1093/plphys/kiae034

ケンブリッジ大学のウルフ・ライクのチームが開発した単一細胞RNAシーケンシング技術は、アラビドプシスの根端細胞では、細胞特異的に発現する 237 個の lncRNA が見つかりました。植物の単一細胞 lncRNA データベース (scPlantDB) が確立され、17 種の 250 万個の細胞データが統合され、lncRNA の空間的および時間的発現パターンを分析するためのオープン ソース プラットフォームが提供されています。

論文リンク:

www.plantcell.org/cgi/doi/10.1105/tpc.18.00785

企業のイノベーション実践という点では、米国の農業技術大手モンサント社は BioDirect™ テクノロジー プラットフォームを活用しています。ゲノミクスと天然化合物を組み合わせて新しい生物製剤を開発する例えば、コロラドゴールデンビートルをターゲットにした精密殺虫剤は、有益な昆虫の生態系を保護しながら害虫を効果的に駆除することができます。

中国のシンジェンタグループは、倍加半数体技術と遺伝子編集を組み合わせることで、トウモロコシの近交系品種の作出サイクルを4年から1年に短縮するという目標を達成し、ハイスループット分子検出プラットフォームを用いて、耐虫性および除草剤耐性形質を迅速に統合しました。2023年に承認された121品種の中には、多くの指標において業界をリードするものがあります。

中国のバイオテクノロジー企業ベナゲンが開発した全長lncRNAシーケンシング技術は、ナノポアプラットフォームの検出ボトルネックを突破した。RNAの選択的スプライシングと新規転写産物を正確に解析することができ、リンゴの皮におけるアントシアニンの蓄積やゼブラフィッシュの神経毒性メカニズムの研究に応用され、基礎科学研究と農業育種の変革を促進しています。これらの実践は、最先端のアルゴリズムとバイオテクノロジーを深く融合させ、作物の改良と生態系保護のためのインテリジェントなソリューションを提供します。

今後、lncRNA研究の深化と技術の継続的な進歩に伴い、大学の科学研究チームの基礎研究成果と企業の革新的な実践により、植物lncRNAの成長、発達、環境適応における重要な役割がさらに明らかになり、これらの成果が実用化され、農業生産の持続可能な発展が促進され、世界の農業生産と生態系のバランスに新たな活力が注入されることが期待されます。

参考記事:

1.https://news.pku.edu.cn/jxky/274-284106.htm
2.https://cn.agropages.com/News/printnew-6048.htm
3.https://www.syngentagroup.cn/shouyeguanli/special/240.html
4.https://www.benagen.com/html/shichangyuzhichi/gongsizixun/855.html