F5C-Finder: Ein erklärbares und ensemblebasierendes biologisches Sprachmodell zur Vorhersage von 5-Formylcytidin-Modifikationen auf mRNA

Als weit verbreitete und dynamisch regulierte epigenetische Modifikation ist 5-Formylcytidin (f5C) in verschiedenen biologischen Prozessen von entscheidender Bedeutung. Traditionelle experimentelle Methoden zur Detektion von f5C sind jedoch oft aufwendig und zeitaufwendig, was ihre Fähigkeit einschränkt, f5C-Standorte im gesamten Transkriptom umfassend zu kartieren. Obwohl computergestützte Ansätze eine kostengünstige und hochdurchflussfähige Alternative bieten, wurde bislang kein Erkennungsmodell für f5C entwickelt. Inspiriert durch Sprachmodelle in der natürlichen Sprachverarbeitung präsentiert diese Studie f5C-finder, ein auf einem Ensemble-Neuronales-Netzwerk basierendes Modell, das Multi-Head-Aufmerksamkeit für die Identifizierung von f5C nutzt. Fünf verschiedene Merkmalsextraktionsmethoden wurden angewendet, um fünf einzelne künstliche Neuronale Netze zu konstruieren, die anschließend durch Ensemble-Lernen integriert wurden, um f5C-finder zu schaffen. Zehnfache Kreuzvalidierung und unabhängige Tests zeigen, dass f5C-finder mit AUC-Werten von 0,807 und 0,827 jeweils den Stand der Technik (SOTA) erreicht. Das Ergebnis unterstreicht die Effektivität des biologischen Sprachmodells bei der Erfassung sowohl der Reihenfolge (sequentiell) als auch der funktionalen Bedeutung (Semantik) innerhalb von Genomen. Darüber hinaus ermöglicht die eingebaute Interpretierbarkeit ein Verständnis dessen, was das Modell lernt, und schafft eine Brücke zwischen der Identifizierung wesentlicher sequentieller Elemente und einer tieferen Untersuchung ihrer biologischen Funktionen.