Durch Die Integration Von Pflanzentranskriptomdaten Aus Mehreren Quellen Haben Die Shandong University of Technology Und Andere Das PlantLncBoost-Modell Entwickelt, Mit Einer Artenübergreifenden lncRNA-Vorhersagegenauigkeit Von Bis Zu 96%

In der Pflanzenwissenschaft rückt die Erforschung langer nichtkodierender RNA (lncRNA) zunehmend in den Fokus. Eine 2020 veröffentlichte Arbeit zur pflanzlichen lncRNA-Forschung wies darauf hin, dass lncRNA eine Schlüsselrolle für Pflanzenwachstum, -entwicklung und -anpassung spielt. Studien haben beispielsweise gezeigt, dass einige lncRNAs durch Interaktion mit Proteinen den Blütezeitpunkt von Pflanzen regulieren und so deren Fortpflanzungsstrategie beeinflussen können. Dieser feine Regulationsmechanismus ist von großer Bedeutung für das Verständnis, wie Pflanzen mit Umweltbelastungen wie dem Klimawandel umgehen.
Mit dem technologischen Fortschritt wurden immer mehr pflanzliche lncRNAs identifiziert und charakterisiert. Die schlechte Sequenzkonservierung von lncRNAs zwischen verschiedenen Arten stellt jedoch eine große Herausforderung für die Generalisierungsfähigkeit von Machine-Learning-Modellen dar. Am Beispiel der früher weit verbreiteten CPC- und CPAT-Tools verringerte sich die Genauigkeit der Kreuzvalidierung zwischen Poaceae- und Leguminosae-Pflanzen im Vergleich zu homologen Arten um 35% bis 40%. Dies verdeutlicht das Kernproblem der unzureichenden Generalisierungsfähigkeit von Sequenzmerkmalen.Obwohl Boosting-Modelle (wie XGBoost und LightGBM) bei der Verarbeitung hochdimensionaler Daten eine bessere Anti-Overfitting-Leistung zeigen, mangelt es in der bestehenden Forschung immer noch an einer systematischen Optimierung des Feature Engineering.Wissenschaftler sind sich bewusst, dass für eine präzise Vorhersage und Analyse von lncRNAs in Pflanzen neue Methoden entwickelt werden müssen, die sich an diese Diversität anpassen. In den letzten Jahren haben Forscher eine Reihe von Strategien vorgeschlagen, darunter Modellauswahl, Hyperparameteroptimierung und Merkmalsextraktion, um die Genauigkeit der lncRNA-Identifizierung zu verbessern.
Kürzlich bildete die Technische Universität Shandong gemeinsam mit der Forstuniversität Peking, der Akademie für Agrarwissenschaften Guangdong, der Universität São Paulo, der Medizinischen Universität Rosalind Franklin, der Universität Umeå und weiteren Forschungseinrichtungen ein interdisziplinäres Team und erzielte einen entscheidenden technologischen Durchbruch bei der Identifizierung pflanzlicher lncRNA. Die Forschung konzentrierte sich auf drei Kernaspekte: Modellauswahl, Hyperparameteroptimierung und Feature Engineering.Zum ersten Mal wurden 219 neue Sequenzdeskriptoren, die auf mathematischen Theorien wie der Fourier-Transformation und der Shannon-Entropie basieren, in den Merkmalsraum integriert. Zudem wurden drei Kernparameter mit artenübergreifender Unterscheidungsfähigkeit mithilfe des Algorithmus zur rekursiven Merkmalseliminierung (RFE) aus 1.652 Kandidatenmerkmalen herausgefiltert.Das auf dieser Grundlage erstellte PlantLncBoost-Modell erreichte bei der Kreuzvalidierung von 12 Pflanzendatensätzen aus verschiedenen Familien und Gattungen eine durchschnittliche Vorhersagegenauigkeit von 91,7%, eine Verbesserung von 18,2% gegenüber bestehenden Mainstream-Tools, und bietet eine systematische Lösung für das Generalisierungsproblem der Identifizierung pflanzlicher lncRNA.
Die entsprechenden Forschungsergebnisse wurden in der Fachzeitschrift New Phytologist unter dem Titel „PlantLncBoost: key features for plant lncRNA identification and significant improvement in accuracy and generalization“ veröffentlicht.

Papieradresse:
Weitere Artikel zu den Grenzen der KI:
Datensatz: Integration heterogener Pflanzentranskriptomdaten aus mehreren Quellen und Aufbau eines Merkmalssystems
Im Hinblick auf den Aufbau der Dateninfrastruktur integrierte das Forschungsteam heterogene Pflanzentranskriptomdaten aus mehreren Quellen, um die Modellentwicklung und -überprüfung zu unterstützen.
Der für das Training in dieser Studie verwendete Kerndatensatz umfasst lncRNA- und mRNA-Sequenzen von neun Angiospermen, darunter Cinnamomum camphora, Arabidopsis thaliana und Reis.Insgesamt wurden 24.152 lncRNA-Sequenzen aus der GreeNC-Datenbank bezogen.Die Datenbank verwendet strenge Qualitätskontrollstandards, um eine hohe Zuverlässigkeit der Daten zu gewährleisten.Die entsprechende Anzahl von mRNA-Proteinsequenzen stammte aus der Phytozome v.13-Datenbank.In der Phase der Datenvorverarbeitung wurde der CD-HIT-EST-Algorithmus verwendet, um redundante Transkripte mit einer Sequenzähnlichkeit von über 80% zu entfernen und Rauschsequenzen mit mehrdeutigen Nukleotiden „N“ zu eliminieren, wodurch ein ausgewogener und reiner Trainingssatz für überwachtes Lernen entstand.
In der Phase der Leistungsbewertung des Modells erstellte das Forschungsteam zwei wichtige Testsätze.Der erste ist ein umfassender Testsatz, der lncRNA-Sequenzen von 20 Arten enthält, von Angiospermen wie Mais und Weintrauben bis hin zu Algen wie Chlamydomonas reinhardtii und Moosen wie Physcomitrella patens. Davon wurden 13 Arten nicht in den Trainingssatz aufgenommen. Die Artenabdeckung ist breit und umfasst viele wichtige Zweige des Pflanzenreichs. Der zweite ist ein experimenteller Validierungssatz mit hoher Zuverlässigkeit. Dieser Datensatz integriert die Inhalte der Datenbanken EVLncRNAs und PlncDB. Nach der Deduplizierung blieben schließlich 358 einzigartige lncRNAs übrig, die 20 Pflanzenarten betreffen. Von 12 Pflanzen wurden lncRNA-Sequenzen nicht in den Trainings- und Testprozess einbezogen, wodurch eine strenge Prüfung der artenübergreifenden Generalisierungsfähigkeit des Modells gewährleistet wurde. Diese Daten wurden einer systematischen redundanten Filterung, einem Qualitätsscreening und einer gruppenübergreifenden Abdeckung unterzogen, was nicht nur die Genauigkeit der Trainingsdaten sicherstellt, sondern auch ein mehrstufiges Verifizierungssystem aufbaut.
Auch,Um Schlüsselmerkmale für das Training robuster lncRNA-Modelle zu identifizieren, extrahierte das Forschungsteam einen Satz von 1.662 Merkmalen aus dem Trainingsdatensatz.Dieser Funktionsumfang umfasst traditionelle sequenzbasierte Metriken wie ORF-Abdeckung, K-Mer-Frequenz und Fickett-Score sowie neue mathematische Funktionen zur Erfassung komplexer Sequenzmuster. InsbesondereDarunter sind 1.433 Merkmale grundlegende Sequenzdeskriptoren, 133 Merkmale stammen aus der numerischen Sequenzzuordnung und der Fourier-Transformation und es gibt 78 komplexe Netzwerkmerkmale und 19 Merkmale aus der Shannon- und Tallis-Entropie.Die Vollständigkeit und Vielfalt dieser Funktionen bieten eine reichhaltige Informationsbasis für das Training und die Optimierung des Modells und tragen dazu bei, die Fähigkeit des Modells zur Identifizierung pflanzlicher lncRNAs zu verbessern.

PlantLncBoost-Algorithmus: Kollaborative Optimierung zum Aufbau eines effizienten Pflanzen-lncRNA-Vorhersagemodells
Beim Aufbau des Vorhersagemodells PlantLncBoost für lange nicht-kodierende RNA (lncRNA) von Pflanzen gelang dem Forschungsteam durch Leistungsvergleiche der Algorithmen und Optimierung der Merkmalsentwicklung eine effiziente und präzise Modellentwicklung.

Während der Algorithmusauswahlphase führte das Forschungsteam eine umfassende Leistungsbewertung von drei Gradient-Boosting-Algorithmen durch: CatBoost, XGBoost und LightGBM, wobei eine fünffache Kreuzvalidierungsmethode verwendet wurde.Die Ergebnisse zeigen, dass CatBoost die beiden anderen Algorithmen bei Schlüsselindikatoren wie Genauigkeit (93,92%), Empfindlichkeit (99,83%) und F1-Score (94,30%) deutlich übertrifft.
Darüber hinaus dauerte die Hyperparameteroptimierung von CatBoost nur 14,45 Minuten.Im Vergleich zu den 164,18 Minuten von XGBoost und den 55,67 Minuten von LightGBM zeigt es einen überwältigenden Effizienzvorteil. Gleichzeitig schneidet CatBoost auch bei der Modellerstellungszeit und der Vorhersagegeschwindigkeit gut ab, die 19,41 Minuten bzw. weniger als 10 Sekunden betragen, was es zur idealen Wahl für die Verarbeitung großer genomischer Daten macht.
In der Merkmalsauswahlphase verwendete das Forschungsteam die Random-Forest-Importance-Strategie (RFI), um Kernvariablen aus 1.662 Kandidatenmerkmalen herauszufiltern.Das mit dieser Methode erstellte Modell erreichte eine Genauigkeit von 94,21% und einen F1-Score von 94,56% bei der fünffachen Kreuzvalidierung und übertraf damit die auf traditionellen Filtermethoden wie ANOVA basierenden Modelle bei weitem (Genauigkeit 75%–79%).

Das Forschungsteam bewertete die Modellleistung der wichtigsten 1-20 Merkmale durch Modellbewertung weiter. Wie in der folgenden Abbildung dargestellt, wurde festgestellt, dass nur die ORF-Abdeckung, der komplexe Fourier-Mittelwert und die atomare Fourier-Amplitude des RFI-3-ModellsDie Modellleistung erreichte ihren Höhepunkt, wobei die Genauigkeit und der F1-Score 94,35% bzw. 94,68% erreichten.Es ist erwähnenswert, dass die Modellleistung erheblich abnimmt, wenn die Anzahl der Features 3 überschreitet, was die Wirksamkeit des „leichtgewichtigen Feature-Sets“ bestätigt.

Die ORF-Abdeckung, ein klassisches biologisches Merkmal, nutzt den wesentlichen Unterschied im Verhältnis offener Leserahmen zwischen lncRNA und mRNA. Beispielsweise beträgt in Arabidopsis die maximale ORF-Abdeckung von lncRNA etwa 0,2, während die ORF-Abdeckung von mRNA bis zu 0,7 beträgt. Wie in der folgenden Abbildung dargestellt, verleiht dieses Merkmal dem Modell grundlegende Unterscheidungsmerkmale. Der komplexe Fourier-Mittelwert und die atomare Fourier-Amplitude sind innovative mathematische Merkmale, die auf der Fourier-Transformation basieren und die Frequenzbereichssignale und Strukturmerkmale der Sequenz durch komplexe Kodierung und Ordnungszahlkodierung erfassen. In der Hauptkomponentenanalyse von Modellpflanzen wie Arabidopsis thaliana, Reis (Oryza sativa) und Pappel (Populus trichocarpa)Die erste Hauptkomponente, die von diesen beiden Merkmalen dominiert wird, erklärte die Klassifizierungsvarianz von 97%, die die zweite Hauptkomponente, die durch die ORF-Abdeckung beigesteuert wurde, ergänzte und zusammen eine robuste Unterscheidungsdimension über alle Arten hinweg bildete.

Finale,Das PlantLncBoost-Modell integriert die effiziente Lernfähigkeit des CatBoost-Algorithmus und die diskriminierenden Vorteile der drei Kernfunktionen.In der 10-fachen Kreuzvalidierung übertraf das Modell bestehende Mainstream-Tools wie LncFinder-plant und CPAT-plant mit Schlüsselindikatoren wie 94,35% Genauigkeit und 99,96% Sensitivität. PlantLncBoost hat eine innovative Architektur aus „leichtgewichtigem Funktionsumfang + leistungsstarkem Algorithmus“ entwickelt und bietet eine Lösung, die biologische Interpretierbarkeit und technische Praktikabilität für die genaue Identifizierung pflanzlicher lncRNAs kombiniert, den Anforderungen groß angelegter Genomdatenanalysen gerecht wird und ein leistungsstarkes neues Tool für die artübergreifende genaue Identifizierung pflanzlicher lncRNAs bietet.
Mehrstufige experimentelle Verifizierung zeigt, dass PlantLncBoost eine führende artenübergreifende Vorhersageleistung aufweist
In der Phase der Überprüfung der Modellleistung hat das Forschungsteam sorgfältig ein mehrstufiges experimentelles System entwickelt, um die Anforderungen der pflanzlichen lncRNA-Vorhersage hinsichtlich der artenübergreifenden Generalisierung und Zuverlässigkeit zu erfüllen.
Zunächst verglich das Forschungsteam PlantLncBoost anhand eines Testdatensatzes mit 20 verschiedenen Pflanzen (darunter Samenpflanzen, Moose und Archaeen) mit neun gängigen Modellen, darunter LncFinder-plant und CPAT-plant. Wie in der folgenden Abbildung dargestellt, zeigen die experimentellen Ergebnisse, dassPlantLncBoost zeigte umfassende Führungsvorteile bei Kernindikatoren wie Sensitivität (98,421 TP3T), Spezifität (94,931 TP3T) und Genauigkeit (96,631 TP3T) und seine ROC-Kurve lag näher am idealen Vorhersagebereich (AUC erreichte 98,351 TP3T).

Insbesondere bei den meisten Arten, wie in der folgenden Tabelle gezeigt,PlantLncBoost kann eine Sensitivität von nahezu 100% erreichen und gleichzeitig eine Spezifität von über 90% beibehalten, wodurch der Leistungsengpass des traditionellen Modells „hohe Sensitivität bei geringer Spezifität“ erfolgreich durchbrochen wird.Im Gegensatz dazu liegt die Genauigkeit von Tools wie CPC2 und PLEK-plant lediglich zwischen 80% und 90%, was auf eine unzureichende Anpassungsfähigkeit an komplexe Pflanzenstammbaumdaten hindeutet.

In einem strengen Test zur experimentellen Validierung von lncRNA verwendete das Forschungsteam einen Datensatz mit 358 Transkripten mit hoher Zuverlässigkeit. Die Ergebnisse zeigten, dassPlantLncBoost hat 357 lncRNAs erfolgreich identifiziert (Erkennungsrate 99,72%) und belegt damit mit LncFinder-plant den ersten Platz.CPAT-plant folgte dicht dahinter mit einer Erkennungsrate von 99.16%. Die einzige nicht identifizierte Weizen-lncRNA (TalncRNA18) wurde durch retrospektive Analyse identifiziert. Ihre ursprüngliche Annotation beruhte auf einem veralteten ORF-Erkennungstool, während moderne Multi-Feature-Modelle einen langen ORF (kodierend ein Polypeptid mit 387 Aminosäuren) vorhersagten. Dies deutet darauf hin, dass das Transkript zu einer falsch klassifizierten kodierenden RNA gehören könnte, was indirekt die Genauigkeit der Vorhersage von PlantLncBoost bestätigt.
Durch die Integration mehrstufiger experimenteller Daten zeigte PlantLncBoost eine hervorragende Stabilität und Genauigkeit sowohl bei der Vorhersage evolutionärer Gruppen als auch bei Validierungssätzen mit hoher Zuverlässigkeit und festigte damit seine führende Position auf dem Gebiet der Identifizierung pflanzlicher lncRNA.
Universitäten und Unternehmen arbeiten zusammen, um Durchbrüche in der pflanzlichen lncRNA-Forschung und -Anwendung voranzutreiben
Tatsächlich bilden sich im Bereich der Forschung zu langen nicht-kodierenden RNAs (lncRNA) von Pflanzen ein Trend synergetischer Durchbrüche zwischen universitärer wissenschaftlicher Forschung und Unternehmensinnovation.
So untersuchte das Team um Deng Xingwang und Zhu Danmeng von der School of Life Sciences der Peking-Universität die pflanzenspezifische nicht-kodierende RNA HID1.Es wurde festgestellt, dass es in Arabidopsis 1,8 kb stromabwärts des HID1-Locus ein funktionell redundantes homologes Gen HIL1 gibt.Schließlich wurde der molekulare Mechanismus der selektiven transkriptionellen Hemmung des nicht-kodierenden RNA-HID1-homologen Gens HIL1 aufgeklärt und die Forschungsergebnisse in Proceedings of the National Academy of Sciences of the United States of America veröffentlicht.
Eine Übersichtsstudie, die 2024 von Soledad Traubeniks Team an der Universität Paris-Saclay in Frankreich in "Plant Physiology" veröffentlicht wurde,Durch Genexpressionsanalyse und RNA-Sequenzierungstechnologie wurde festgestellt, dass COOLAIR lncRNA die Expression von FLC, einem Schlüsselgen in der Vernalisationsreaktion von Arabidopsis thaliana, durch Veränderung seiner Sekundärstruktur reguliert.Sein dynamischer Regulierungsmodus unter Niedertemperaturstress bietet ein neues Ziel für die Züchtung von Pflanzenstressresistenz.
Link zum Artikel:
doi.org/10.1093/plphys/kiae034
Die von Wolf Reiks Team an der Universität Cambridge entwickelte Technologie zur Einzelzell-RNA-Sequenzierung,In den Wurzelspitzenzellen von Arabidopsis wurden 237 zellspezifisch exprimierte lncRNAs gefunden.Es wurde eine Datenbank für pflanzliche Einzelzell-lncRNA (scPlantDB) eingerichtet, die 2,5 Millionen Zelldaten von 17 Arten integriert und eine Open-Source-Plattform für die Analyse der räumlich-zeitlichen Expressionsmuster von lncRNAs bietet.
Link zum Artikel:
www.plantcell.org/cgi/doi/10.1105/tpc.18.00785
Der US-Agrartechnologieriese Monsanto setzt in seiner Unternehmensinnovationspraxis auf die Technologieplattform BioDirect™.Kombination von Genomik und natürlichen Verbindungen zur Entwicklung neuer Biologika,Beispielsweise können präzise Insektizide, die auf den Colorado-Goldkäfer abzielen, Schädlinge wirksam bekämpfen und gleichzeitig die Ökologie nützlicher Insekten schützen.
Die Syngenta Group aus China hat das Ziel erreicht, den Entstehungszyklus von Mais-Inzuchtlinien von vier auf ein Jahr zu verkürzen. Dies gelang durch die Kombination von Doppelhaploiden-Technologie mit Genomeditierung. Mithilfe einer Hochdurchsatz-Plattform für molekulare Detektion konnten insekten- und herbizidresistente Eigenschaften schnell integriert werden. Die 121 im Jahr 2023 zugelassenen Sorten weisen in vielen Punkten branchenführende Indikatoren auf.
Die vom chinesischen Biotechnologieunternehmen Benagen entwickelte Technologie zur vollständigen lncRNA-Sequenzierung hat den Erkennungsengpass der Nanopore-Plattform durchbrochen.Es ermöglicht die präzise Analyse alternativen RNA-Spleißens und neuer Transkripte und wurde bereits zur Erforschung der Anthocyanin-Akkumulation in Apfelschalen und des Neurotoxizitätsmechanismus bei Zebrafischen eingesetzt. Dies trägt zur Transformation der Grundlagenforschung und der landwirtschaftlichen Züchtung bei. Diese Verfahren integrieren modernste Algorithmen tiefgreifend in die Biotechnologie und bieten intelligente Lösungen zur Verbesserung von Nutzpflanzen und zum Umweltschutz.
Mit der Vertiefung der lncRNA-Forschung und der kontinuierlichen Weiterentwicklung der Technologie dürften die Ergebnisse der Grundlagenforschung wissenschaftlicher Forschungsteams an Universitäten und die innovativen Praktiken von Unternehmen in Zukunft die Schlüsselrolle der pflanzlichen lncRNA bei Wachstum, Entwicklung und Anpassung an die Umwelt noch weiter aufdecken und diese Ergebnisse in praktische Anwendungen umsetzen, die nachhaltige Entwicklung der landwirtschaftlichen Produktion fördern und der globalen landwirtschaftlichen Produktion und dem ökologischen Gleichgewicht neue Vitalität verleihen.
Referenzartikel:
1.https://news.pku.edu.cn/jxky/274-284106.htm
2.https://cn.agropages.com/News/printnew-6048.htm
3.https://www.syngentagroup.cn/shouyeguanli/special/240.html
4.https://www.benagen.com/html/shichangyuzhichi/gongsizixun/855.html