HyperAIHyperAI

IJCAI 2025 | Validation De 7 Jeux De Données : scSiameseClu Atteint Des Performances SOTA Dans Les Tâches De Clustering Unicellulaire Non Supervisées

特色图像

Par le passé, la recherche en sciences de la vie s'est souvent concentrée sur l'échelle de la population. Grâce au séquençage d'ARN en masse traditionnel, nous pouvons obtenir l'expression génétique moyenne des cellules d'une population, mais cela signifie que les caractéristiques de certaines cellules rares peuvent être masquées.Aujourd’hui, les chercheurs espèrent de plus en plus entendre la voix de cellules « uniques ».

Le séquençage d'ARN monocellulaire (scRNA-seq) est une technologie révolutionnaire qui permet de capturer l'information génétique complète d'une cellule unique au cœur de l'agitation d'une population cellulaire, révélant ainsi des caractéristiques complexes cachées. Pour comprendre ces informations complexes,Une étape clé est nécessaire : le regroupement des cellules.Le regroupement de cellules en fonction des similitudes dans l’expression des gènes est un processus difficile.

Les données scRNA-seq se caractérisent par un bruit important, une grande rareté et une grande dimensionnalité. Même la méthode de réseau neuronal graphique (GNN) la plus efficace présente actuellement des problèmes de « construction graphique insuffisante » et d'« effondrement de la représentation ».Comme le montre la figure ci-dessous, les résultats de représentation du scNAME, basé sur l'apprentissage profond, et du scGNN, basé sur le réseau neuronal graphique, ont progressivement convergé, indiquant divers degrés d'effondrement de ces représentations. Autrement dit, il manque encore un outil de clustering capable de véritablement préserver les différences cellulaires.


Distribution de similarité des intégrations cellulaires entre scNAME et scGNN sur le même ensemble de données

Pour résoudre ce dilemme, des équipes de recherche de l'Académie chinoise des sciences, de l'Université agricole du Nord-Est, de l'Université de Macao et de l'Université de Jilin ont proposé conjointement un nouveau cadre de clustering de jumeaux, scSiameseClu, pour l'interprétation des données d'ARN-seq unicellulaires. Ce cadre vise à capturer et à affiner des informations intercellulaires complexes tout en apprenant simultanément des représentations discriminantes et robustes aux niveaux génétique et cellulaire.Le cadre intègre trois modules clés : la double amélioration, la fusion jumelle et le clustering de transmission optimal.Grâce à cette conception, scSiameseClu peut efficacement atténuer le problème de l'effondrement de la représentation, obtenir une classification plus claire de la population cellulaire et fournir un outil puissant pour l'analyse des données scRNA-seq.

La recherche connexe, intitulée « scSiameseClu : A Siamese Clustering Framework for Interpreting single-cell RNA Sequencing Data », a été sélectionnée pour l'IJCAI 2025 et une pré-impression a été publiée sur arXiv.

Points saillants de la recherche :

* scSiameseClu peut capturer des informations complexes à partir de l'expression des gènes et des cartes cellulaires pour apprendre des intégrations cellulaires discriminantes et robustes, améliorant ainsi les résultats de clustering et les tâches en aval ;

* Introduction de modules clés et construction d'un cadre complet de « amélioration-fusion-clustering » ;

* scSiameseClu surpasse les méthodes SOTA dans le clustering et d'autres tâches biologiques.

Adresse du document :

https://go.hyper.ai/00BhP

Suivez le compte officiel et répondez « Twin Clustering Framework » pour obtenir le PDF complet

Autres articles sur les frontières de l'IA :
https://hyper.ai/papers

7 ensembles de données du monde réel couvrant plusieurs tissus et espèces

Pour évaluer de manière exhaustive les performances de scSiameseClu, l’équipe de recherche a mené des expériences sur sept ensembles de données scRNA-seq réels.Les gènes exprimés dans moins de trois cellules ont été filtrés, normalisés, soumis à une transformation logarithmique (logTPM) et les gènes très variables ont été sélectionnés en fonction de seuils de moyenne et de dispersion prédéfinis. Ces ensembles de données prétraités comprennent trois échantillons de souris et quatre échantillons humains, couvrant divers types cellulaires (par exemple, rétine, poumon, foie, rein et pancréas), avec des nombres de gènes, des nombres de types cellulaires et une rareté variables. L'image suivante donne un aperçu des ensembles de données utilisés.


Aperçu de 7 ensembles de données scRNA-seq

Les trois modules du framework de clustering jumeau

Le scSiameseClu proposé par l'équipe de recherche est un framework de clustering jumeau basé sur des autoencodeurs de graphes améliorés. Ce framework se compose de trois modules :

(i) Module d’augmentation double ;

(ii) Module de fusion siamois ;

(iii) Regroupement de transport optimal pour l'apprentissage auto-supervisé.


Présentation de l'architecture scSiameseClu

Module d'amélioration double

Le module d'amélioration double de cette étude est « Amélioration de l'expression génétique + amélioration de la carte cellulaire »,Afin d'améliorer la robustesse du modèle au bruit et sa capacité de généralisation sur différents ensembles de données, l'équipe de recherche a ajouté un bruit gaussien pour simuler les fluctuations naturelles de l'expression génétique, améliorant ainsi la robustesse au niveau génétique. En adoptant des stratégies de perturbation des arêtes et de diffusion des graphes, ils ont généré des matrices d'adjacence améliorées, traitant le graphe cellulaire selon des perspectives différentes mais complémentaires, permettant au modèle de capturer les diverses interactions entre les cellules.

Module de fusion double

Le module Twin Fusion (SFM) est la conception innovante de base de scSiameseClu.Une stratégie intégrant le « raffinement de la corrélation croisée » et la « fusion adaptative de l’information » est adoptée.Plus précisément, le premier construit un autoencodeur pour traiter séparément la matrice d'expression génétique améliorée et la matrice de carte cellulaire, et les aligner et les fusionner dans l'espace latent ; le second intègre les relations cellulaires en intégrant l'agrégation, l'apprentissage par autocorrélation et la réorganisation dynamique, filtrant efficacement les informations redondantes et conservant les caractéristiques discriminantes dans l'espace latent, lui permettant d'apprendre des représentations robustes et significatives, améliorant ainsi les performances de clustering tout en évitant l'effondrement des représentations.

De plus, le cadre introduit un terme de régularisation de propagation pour contraindre la cohérence de l'intégration d'origine et de l'intégration après la propagation du graphe en utilisant la divergence Jensen-Shannon, atténuant le problème de lissage excessif des réseaux neuronaux graphiques tout en maintenant le flux d'informations.

Regroupement optimal des transmissions

L'équipe de recherche a d'abord utilisé la distribution t de Student pour calculer la similarité entre les cellules et les centres de cluster, puis a utilisé l'algorithme de Sinkhorn pour aligner et corriger la distribution prédite.Cela garantit l’équilibre de la distribution des clusters et évite le problème d’effondrement.

Plusieurs validations des performances supérieures du framework scRNA-seq

Les performances supérieures du framework scRNA-seq en matière de clustering sont le fruit d'une validation expérimentale approfondie. Une comparaison exhaustive avec les méthodes classiques a d'abord été réalisée. L'équipe de recherche a sélectionné neuf modèles de référence de pointe, incluant des méthodes de clustering traditionnelles, des méthodes basées sur des réseaux neuronaux profonds et des méthodes de clustering basées sur des réseaux neuronaux graphes. À partir des sept jeux de données réels mentionnés ci-dessus, l'équipe a évalué les performances à l'aide de trois indicateurs de clustering largement reconnus : la précision (ACC), l'information mutuelle normalisée (NMI) et l'indice de Rand ajusté (ARI).

Les résultats montrent que scSiameseClu bénéficie d'un net avantage sur les trois indicateurs. Non seulement le score global est plus élevé, mais les performances sont également stables sur différents ensembles de données.Comme le montre la comparaison visuelle de l’ensemble de données sur les cellules hépatiques humaines, scSiameseClu peut générer des clusters avec des limites claires et une bonne séparation par rapport à d’autres modèles de référence, et peut distinguer efficacement différents types de cellules.


Résultats de visualisation de scSiameseClu et de quatre méthodes de référence typiques sur les hépatocytes humains

Deuxièmement, lors d'expériences en aval, l'équipe de recherche a procédé à l'annotation des types cellulaires. Dans un ensemble de données de pancréas humain, ils ont utilisé l'outil Seurat pour identifier les gènes différentiellement exprimés et les gènes marqueurs. Ils ont ensuite comparé les 50 principaux gènes marqueurs identifiés par scSiameseClu et d'autres méthodes avec la méthode de référence. Les résultats ont montré que la plupart des groupes présentaient une similarité supérieure à 90%, correspondant précisément aux types cellulaires connus. Le modèle a également identifié les gènes marqueurs de chaque groupe.

D'autres expériences de classification cellulaire ont également montré que scSiameseClu surpassait le modèle de base dans plusieurs indicateurs tels que la précision et la valeur F1, vérifiant ses avantages dans la révélation de l'hétérogénéité cellulaire et la discrimination de type.


Chevauchement de gènes différentiellement exprimés avec des types de cellules standard


Comparaison des performances de classification

Enfin, lors d'expériences d'ablation, l'équipe de recherche a retiré des composants clés de scSiameseClu (notamment la perte SFM, la perte ZINB et la perte OTC) de l'ensemble de données cellulaires rétiniennes de souris Shekhar et les a comparés au modèle complet afin d'évaluer l'efficacité de chaque module du cadre. Les résultats ont montré que chaque composant améliorait significativement les performances, tandis que l'absence de l'un d'eux entraînait une diminution de ces dernières. Un désassemblage plus poussé du module SFM, la suppression du raffinement dépendant des cellules, du raffinement dépendant du potentiel, de la régularisation de la propagation et de la perte de reconstruction ont montré une dégradation des performances. Cependant, scSiameseClu, avec tous ses composants inclus, a montré des améliorations significatives des performances, démontrant son intégration efficace des informations génomiques et cellulaires.


Expériences d'ablation de Shekhar sur l'ensemble de données de cellules rétiniennes de souris

Vers une nouvelle ère de biologie computationnelle florissante

Du point de vue de la biologie computationnelle, scSiameseClu a résolu efficacement le problème de longue date de l'analyse de l'hétérogénéité cellulaire en biologie en exploitant des méthodes telles que la double amélioration, la fusion de jumeaux et le clustering de transmission optimal en informatique.On peut dire qu’il s’agit simplement d’un nouveau type d’outil de clustering et de l’une des nombreuses tentatives émergentes dans le domaine de l’intégration profonde des méthodes informatiques et des sciences de la vie.De plus, avec le développement rapide des algorithmes d’intelligence artificielle et de la biologie, de nouveaux résultats apparaissent constamment.

L'équipe du professeur Zhang Yang, de l'Université nationale de Singapour, a proposé DRfold2, un cadre de prédiction de structure d'ARN de haute précision basé sur l'apprentissage profond. DRfold2 intègre un modèle de langage composite d'ARN pré-entraîné (RCLM) et un module de structure débruité pour la prédiction de structure d'ARN de bout en bout. Leurs résultats ont été publiés sur la plateforme de prépublication bioRxiv sous le titre « Prédiction ab initio de structure d'ARN avec modèle de langage composite et apprentissage de bout en bout débruité ».
Adresse du document :
https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1

Une équipe de recherche du Baylor College of Medicine aux États-Unis a proposé un cadre d'apprentissage profond pour prédire les modifications post-traductionnelles des protéines, appelé DeepMVP. DeepMVP intègre le jeu de données PTMAtlas de haute qualité pour prédire avec précision les sites PTM et les altérations induites par les variants faux-sens. Leurs résultats ont été publiés dans Nature Methods sous le titre « DeepMVP : des modèles d'apprentissage profond entraînés sur des données de haute qualité prédisent avec précision les sites PTM et les altérations induites par les variants ».
Adresse du document :
https://www.nature.com/articles/s41592-025-02797-x