En Intégrant Des Données De Transcriptome Végétal Multi-sources, L'université De Technologie Du Shandong Et D'autres Ont Construit Le Modèle PlantLncBoost, Avec Une Précision De Prédiction d'ARNnc Inter-espèces Allant Jusqu'à 96%

Dans le domaine des sciences végétales, l'étude des ARN longs non codants (ARNlnc) devient progressivement un sujet d'intérêt. Un article sur les ARNlnc végétaux, publié en 2020, a souligné leur rôle essentiel dans la croissance, le développement et l'adaptation environnementale des plantes. Par exemple, des études ont montré que certains ARNlnc peuvent réguler la floraison des plantes en interagissant avec des protéines, affectant ainsi leur stratégie de reproduction. Ce mécanisme de régulation précis est essentiel pour comprendre comment les plantes font face aux pressions environnementales telles que le changement climatique.
Grâce aux progrès technologiques, de plus en plus d'ARNnc végétaux ont été identifiés et caractérisés. Cependant, la faible conservation des séquences d'ARNnc entre les différentes espèces pose un défi majeur à la généralisation des modèles d'apprentissage automatique. Prenons l'exemple des outils CPC et CPAT, largement utilisés à leurs débuts, dont la précision de validation croisée entre les plantes Poaceae et Leguminosae a diminué de 35% à 40% par rapport aux espèces homologues, exposant ainsi le problème fondamental de la généralisation insuffisante des caractéristiques de séquence.Bien que les modèles boosting (tels que XGBoost et LightGBM) présentent de meilleures performances anti-surajustement lors du traitement de données de grande dimension, les recherches existantes manquent encore d'optimisation systématique de l'ingénierie des fonctionnalités.Les scientifiques sont conscients que pour prédire et analyser avec précision les ARNlnc chez les plantes, de nouvelles méthodes capables de s'adapter à cette diversité doivent être développées. Ces dernières années, les chercheurs ont proposé une série de stratégies, notamment la sélection de modèles, l'optimisation des hyperparamètres et l'extraction de caractéristiques, visant à améliorer la précision de l'identification des ARNlnc.
Récemment, l'Université de technologie du Shandong, en collaboration avec l'Université forestière de Pékin, l'Académie des sciences agricoles du Guangdong, l'Université de São Paulo, l'Université de médecine Rosalind Franklin, l'Université d'Umeå et d'autres instituts de recherche, a formé une équipe interdisciplinaire et réalisé une avancée technologique majeure dans l'identification des ARNnc végétaux. La recherche s'est concentrée sur trois aspects fondamentaux : la sélection de modèles, l'optimisation des hyperparamètres et l'ingénierie des caractéristiques.Pour la première fois, 219 nouveaux descripteurs de séquence basés sur des théories mathématiques telles que la transformée de Fourier et l'entropie de Shannon ont été incorporés dans l'espace des caractéristiques, et trois paramètres de base dotés de capacités de discrimination inter-espèces ont été éliminés parmi 1 652 caractéristiques candidates grâce à l'algorithme d'élimination des caractéristiques récursives (RFE).Le modèle PlantLncBoost construit sur cette base a atteint une précision de prédiction moyenne de 91,7% dans la validation croisée de 12 ensembles de données végétales de différentes familles et genres, soit une amélioration de 18,2% par rapport aux outils traditionnels existants, fournissant une solution systématique au problème de généralisation de l'identification des lncRNA végétaux.
Les résultats de recherche pertinents ont été publiés dans la revue académique New Phytologist sous le titre « PlantLncBoost : fonctionnalités clés pour l'identification des lncRNA des plantes et amélioration significative de la précision et de la généralisation ».

Adresse du document :
Autres articles sur les frontières de l'IA :
Ensemble de données : Intégration de données de transcriptome de plantes hétérogènes multi-sources et construction d'un système de caractéristiques
En termes de construction d’infrastructures de données, l’équipe de recherche a intégré des données de transcriptome végétal hétérogènes multi-sources pour soutenir le développement et la vérification des modèles.
L'ensemble de données de base utilisé pour la formation dans cette étude couvre les séquences d'ARNnc et d'ARNm de neuf angiospermes, dont Cinnamomum camphora, Arabidopsis thaliana et le riz.Au total, 24 152 séquences d'ARNnc ont été obtenues à partir de la base de données GreeNC.La base de données utilise des normes de contrôle de qualité strictes pour garantir une grande fiabilité des données ;Le nombre équivalent de séquences de protéines d’ARNm provient de la base de données Phytozome v.13.Dans l'étape de prétraitement des données, l'algorithme CD-HIT-EST a été utilisé pour supprimer les transcriptions redondantes avec une similarité de séquence dépassant 80% et pour éliminer les séquences de bruit contenant des nucléotides ambigus « N », formant ainsi un ensemble d'apprentissage supervisé équilibré et pur.
Dans la phase d’évaluation des performances du modèle, l’équipe de recherche a construit deux ensembles de tests clés.Le premier est un ensemble de tests complet, contenant les séquences d'ARNnc de 20 espèces, allant des angiospermes comme le maïs et la vigne aux algues comme Chlamydomonas reinhardtii et aux mousses comme Physcomitrella patens. Parmi elles, 13 espèces n'étaient pas incluses dans l'ensemble d'entraînement. La couverture spécifique est large, couvrant de nombreuses branches majeures du règne végétal. Le second est un ensemble de validation expérimentale de haute confiance. Cet ensemble de données intègre le contenu des bases de données EVLncRNAs et PlncDB. Après déduplication, 358 ARNnc uniques ont finalement été retenus, impliquant 20 espèces de plantes, dont les séquences d'ARNnc de 12 plantes n'ont pas été incluses dans le processus d'entraînement et de test, garantissant ainsi un test rigoureux de la capacité de généralisation inter-espèces du modèle. Ces données ont subi un filtrage redondant systématique, un contrôle qualité et une couverture inter-groupes, ce qui non seulement garantit l'exactitude des données d'entraînement, mais construit également un système de vérification multi-niveaux.
aussi,Pour identifier les caractéristiques clés permettant de former des modèles d’ARNlnc robustes, l’équipe de recherche a extrait un ensemble de 1 662 caractéristiques de l’ensemble de données de formation.Cet ensemble de fonctionnalités couvre les mesures séquentielles traditionnelles, telles que la couverture ORF, la fréquence k-mer et le score de Fickett, ainsi que de nouvelles fonctionnalités mathématiques conçues pour capturer des séquences complexes. Plus précisément,Parmi eux, 1 433 caractéristiques sont des descripteurs de séquences de base, 133 caractéristiques proviennent du mappage de séquences numériques et de la transformée de Fourier, et il existe 78 caractéristiques de réseau complexe et 19 caractéristiques de l'entropie de Shannon et de Tallis.L'exhaustivité et la diversité de ces caractéristiques fournissent une base d'informations riche pour la formation et l'optimisation des modèles et contribuent à améliorer la capacité du modèle à identifier les lncRNA des plantes.

Algorithme PlantLncBoost : optimisation collaborative pour créer un modèle de prédiction efficace des lncRNA végétaux
Dans le processus de construction du modèle de prédiction d'ARN non codant long (lncRNA) des plantes PlantLncBoost, l'équipe de recherche a réalisé un développement de modèle efficace et précis grâce à la comparaison des performances des algorithmes et à l'optimisation de l'ingénierie des fonctionnalités.

Au cours de la phase de sélection de l'algorithme, l'équipe de recherche a mené une évaluation complète des performances de trois algorithmes de boosting de gradient : CatBoost, XGBoost et LightGBM, en utilisant une méthode de validation croisée en cinq étapes.Les résultats montrent que CatBoost surpasse significativement les deux autres algorithmes dans des indicateurs clés tels que la précision (93,92%), la sensibilité (99,83%) et le score F1 (94,30%).
De plus, l’optimisation des hyperparamètres de CatBoost n’a pris que 14,45 minutes.Comparé aux 164,18 minutes de XGBoost et aux 55,67 minutes de LightGBM, il présente un avantage considérable en termes d'efficacité. Parallèlement, CatBoost affiche d'excellents résultats en termes de temps de construction de modèles et de vitesse de prédiction, respectivement de 19,41 minutes et moins de 10 secondes, ce qui en fait un choix idéal pour le traitement de données génomiques à grande échelle.
Au cours de l’étape de sélection des fonctionnalités, l’équipe de recherche a utilisé la stratégie d’importance de la forêt aléatoire (RFI) pour filtrer les variables principales de 1 662 fonctionnalités candidates.Le modèle construit par cette méthode a atteint une précision de 94,21% et un score F1 de 94,56% dans une validation croisée quintuple, dépassant de loin les modèles basés sur des méthodes de filtrage traditionnelles telles que l'ANOVA (précision 75%-79%).

L'équipe de recherche a également évalué les performances du modèle pour les 1 à 20 principales caractéristiques. Comme le montre la figure ci-dessous, seules la couverture de l'ORF, la moyenne de Fourier complexe et l'amplitude de Fourier atomique du modèle RFI-3 ont été évaluées.Les performances du modèle ont atteint leur apogée, avec une précision et un score F1 atteignant respectivement 94,35% et 94,68%.Il convient de noter que lorsque le nombre de fonctionnalités dépasse 3, les performances du modèle diminuent considérablement, ce qui vérifie l'efficacité de « l'ensemble de fonctionnalités légères ».

La couverture de l'ORF, caractéristique biologique classique, exploite la différence essentielle du rapport des cadres de lecture ouverts entre l'ARNlnc et l'ARNm. Par exemple, chez Arabidopsis, la couverture maximale de l'ORF de l'ARNlnc est d'environ 0,2, tandis que celle de l'ARNm atteint 0,7. Comme le montre la figure ci-dessous, cette caractéristique confère au modèle une capacité de distinction fondamentale. La moyenne de Fourier complexe et l'amplitude de Fourier atomique sont des caractéristiques mathématiques innovantes basées sur la transformée de Fourier, qui capturent les signaux du domaine fréquentiel et les caractéristiques structurelles de la séquence grâce à des techniques de codage complexe et de codage du numéro atomique. Dans l'analyse en composantes principales de plantes modèles telles qu'Arabidopsis thaliana, le riz (Oryza sativa) et le peuplier (Populus trichocarpa),La première composante principale dominée par ces deux caractéristiques expliquait la variance de classification de 97%, qui était complémentaire de la deuxième composante principale apportée par la couverture ORF et construisait ensemble une dimension de discrimination robuste entre espèces.

final,Le modèle PlantLncBoost intègre la capacité d'apprentissage efficace de l'algorithme CatBoost et les avantages discriminants des trois fonctionnalités principales.Lors de la validation croisée décuplée, le modèle a surpassé les outils courants existants tels que LncFinder-plant et CPAT-plant, avec des indicateurs clés tels qu'une précision de 94,351 TP3T et une sensibilité de 99,961 TP3T. PlantLncBoost a développé une architecture innovante combinant un ensemble de fonctionnalités légères et un algorithme haute performance. Cette solution allie interprétabilité biologique et praticité technique pour l'identification précise des lncRNA végétaux, répondant ainsi aux besoins d'analyse de données génomiques à grande échelle et offrant un nouvel outil puissant pour l'identification inter-espèces précise des lncRNA végétaux.
La vérification expérimentale à plusieurs niveaux montre que PlantLncBoost présente des performances de prédiction inter-espèces de premier plan
Au stade de la vérification des performances du modèle, l'équipe de recherche a soigneusement conçu un système expérimental à plusieurs niveaux pour répondre aux besoins de prédiction de l'ARNnc végétal en termes de généralisation inter-espèces et de fiabilité.
Tout d'abord, à partir d'un ensemble de données test contenant 20 plantes diverses (plantes à graines, mousses et archées), l'équipe de recherche a comparé PlantLncBoost à neuf modèles courants, dont LncFinder-plant et CPAT-plant. Comme le montre la figure ci-dessous, les résultats expérimentaux montrent quePlantLncBoost a montré des avantages de premier plan dans les indicateurs de base tels que la sensibilité (98,42%), la spécificité (94,93%) et la précision (96,63%), et sa courbe ROC était plus proche de la zone de prédiction idéale (AUC a atteint 98,35%).

En particulier, chez la plupart des espèces, comme le montre le tableau suivant,PlantLncBoost peut atteindre une sensibilité de près de 100% tout en maintenant une spécificité de plus de 90%, brisant ainsi avec succès le goulot d'étranglement des performances du modèle traditionnel de « haute sensibilité avec faible spécificité ».En revanche, la précision d’outils tels que CPC2 et PLEK-plant n’est que comprise entre 80% et 90%, ce qui montre une adaptabilité insuffisante aux données complexes de lignée végétale.

Lors d'un test rigoureux de validation expérimentale de l'ARNlnc, l'équipe de recherche a utilisé un ensemble de données contenant 358 transcrits hautement fiables. Les résultats ont montré quePlantLncBoost a identifié avec succès 357 lncRNA (taux de détection 99,72%), se classant premier avec LncFinder-plant.CPAT-plant suit de près avec un taux de détection de 99,16%. Le seul lncRNA de blé non identifié (TalncRNA18) a été découvert grâce à une analyse rétrospective. Son annotation initiale reposait sur un outil de détection d'ORF obsolète, tandis que les modèles multi-caractéristiques modernes prédisaient qu'il possédait un long ORF (codant un polypeptide de 387 acides aminés), suggérant que le transcrit pourrait appartenir à un ARN codant mal classé, ce qui confirme indirectement la rigueur de la prédiction de PlantLncBoost.
En intégrant des données expérimentales à plusieurs niveaux, PlantLncBoost a démontré une excellente stabilité et une excellente précision dans la prédiction de groupes inter-évolutionnaires et dans les ensembles de validation à haute confiance, établissant sa position avancée dans le domaine de l'identification des lncRNA végétaux.
Les universités et les entreprises collaborent pour réaliser des avancées dans la recherche et l'application des ARNnc végétaux
En fait, dans le domaine de la recherche sur les ARN longs non codants végétaux (lncRNA), la recherche scientifique universitaire et l’innovation des entreprises forment une tendance de percées synergétiques.
Par exemple, l’équipe dirigée par Deng Xingwang et Zhu Danmeng de l’École des sciences de la vie de l’Université de Pékin a étudié l’ARN non codant HID1 spécifique aux plantes.Il a été découvert qu'il existe un gène homologue fonctionnellement redondant HIL1 1,8 kb en aval du locus HID1 chez Arabidopsis.Enfin, le mécanisme moléculaire de l'inhibition transcriptionnelle sélective du gène homologue de l'ARN non codant HID1 HIL1 a été élucidé et les résultats de la recherche ont été publiés dans les Actes de l'Académie nationale des sciences des États-Unis d'Amérique.
Une étude de synthèse publiée dans « Plant Physiology » par l'équipe de Soledad Traubenik à l'Université Paris-Saclay en France en 2024,Grâce à l'analyse de l'expression génétique et à la technologie de séquençage de l'ARN, il a été découvert que l'ARNnc COOLAIR régule l'expression de FLC, un gène clé dans la réponse de vernalisation d'Arabidopsis thaliana, en modifiant sa structure secondaire.Son mode de régulation dynamique sous stress à basse température fournit une nouvelle cible pour la sélection de la résistance des cultures au stress.
Lien vers l'article :
doi.org/10.1093/plphys/kiae034
La technologie de séquençage d'ARN unicellulaire développée par l'équipe de Wolf Reik à l'Université de Cambridge,237 lncRNA exprimés spécifiquement dans les cellules ont été trouvés dans les cellules de l'extrémité des racines d'Arabidopsis.Une base de données d'ARNnc unicellulaires végétaux (scPlantDB) a été créée, qui intègre 2,5 millions de données cellulaires provenant de 17 espèces, fournissant une plate-forme open source pour l'analyse des modèles d'expression spatio-temporels des ARNnc.
Lien vers l'article :
www.plantcell.org/cgi/doi/10.1105/tpc.18.00785
En termes de pratiques d’innovation d’entreprise, le géant américain des technologies agricoles Monsanto s’appuie sur la plateforme technologique BioDirect™.Combiner la génomique avec des composés naturels pour développer de nouveaux produits biologiques,Par exemple, les insecticides de précision ciblant les scarabées dorés du Colorado peuvent contrôler efficacement les parasites tout en protégeant l’écologie des insectes utiles.
Le groupe chinois Syngenta a atteint son objectif de raccourcir le cycle de création de lignées de maïs pures de quatre à un an en combinant la technologie des haploïdes doublés avec l'édition génétique. Il a également utilisé une plateforme de détection moléculaire à haut débit pour intégrer rapidement des caractères de résistance aux insectes et aux herbicides. Parmi les 121 variétés approuvées en 2023, de nombreux indicateurs sont en tête du secteur.
La technologie de séquençage d'ARNlnc pleine longueur développée par la société de biotechnologie chinoise Benagen a franchi le goulot d'étranglement de détection de la plate-forme Nanopore.Il permet d'analyser avec précision l'épissage alternatif de l'ARN et les nouveaux transcrits, et a été appliqué à la recherche sur l'accumulation d'anthocyanes dans la peau de pomme et le mécanisme de neurotoxicité chez le poisson zèbre, favorisant ainsi la transformation de la recherche scientifique fondamentale et de la sélection agricole. Ces pratiques intègrent étroitement des algorithmes de pointe aux biotechnologies, offrant des solutions intelligentes pour l'amélioration des cultures et la protection écologique.
À l'avenir, avec l'approfondissement de la recherche sur les lncRNA et les progrès continus de la technologie, les résultats de la recherche fondamentale des équipes de recherche scientifique universitaire et les pratiques innovantes des entreprises devraient révéler davantage le rôle clé des lncRNA végétaux dans la croissance, le développement et l'adaptation environnementale, et transformer ces résultats en applications pratiques, promouvoir le développement durable de la production agricole et insuffler une nouvelle vitalité à la production agricole mondiale et à l'équilibre écologique.
Articles de référence :
1.https://news.pku.edu.cn/jxky/274-284106.htm
2.https://cn.agropages.com/News/printnew-6048.htm
3.https://www.syngentagroup.cn/shouyeguanli/special/240.html
4.https://www.benagen.com/html/shichangyuzhichi/gongsizixun/855.html