HyperAI

Sélectionné Pour L'aaai 2025, L'université Du Zhejiang a Proposé Un Modèle De Régression Plusieurs À Un M2OST, Qui Utilise Des Images De Pathologie Numérique Pour Prédire Avec Précision L'expression Des Gènes

il y a 3 mois
Information
h.li
特色图像

En tant qu'image de pathologie en coupe entière (WSI), les images de pathologie numériques peuvent présenter des sections de tissus numériquement avec une haute résolution et afficher de manière exhaustive la morphologie cellulaire, la structure et les caractéristiques de distribution spatiale. Par rapport aux lames de verre traditionnelles, les WSI sont non seulement plus faciles à stocker et à analyser, mais offrent également des vues de tissus plus intuitives à plusieurs échelles. Ils sont donc de plus en plus utilisés dans le diagnostic pathologique et la recherche biomédicale. En analysant ces images, les chercheurs peuvent explorer le lien intrinsèque entre l’organisation spatiale cellulaire et l’expression des gènes, révélant ainsi les mécanismes complexes de régulation transcriptionnelle dans les systèmes multicellulaires.

Ces dernières années, la transcriptomique spatiale (ST), en tant que technologie d’extension spatiale du séquençage d’ARN unicellulaire, est devenue un outil important pour étudier la distribution, l’interaction et les mécanismes moléculaires des sous-types cellulaires. Cependant, en raison de ses coûts élevés en matière d’équipement et de réactifs, la technologie ST rencontre encore des difficultés de vulgarisation dans les applications pratiques. En comparaison, les WSI sont plus économiques et accessibles pour une application clinique. Par conséquent, la manière de reconstruire des cartes ST à partir de WSI à faible coût à l'aide de l'apprentissage profond est devenue une direction de recherche qui a attiré beaucoup d'attention.

La plupart des méthodes existantes considèrent le problème de prédiction ST comme un problème de régression traditionnel et utilisent des paires image-étiquette à un seul niveau pour la formation. Cela les limite à la modélisation des relations d'expression génétique uniquement pour les images avec le grossissement maximal, gaspillant ainsi les informations multi-échelles inhérentes aux WSI.

Sur la base de ce problème,L'équipe de recherche du professeur Lin Lanfen de l'Université du Zhejiang en Chine, en collaboration avec le laboratoire Zhejiang Hangzhou Zhijiang et l'Université Ritsumeikan au Japon, a proposé conjointement M2OST, un modèle de régression plusieurs à un Transformer qui vise à prédire conjointement l'expression des gènes à l'aide d'images pathologiques à différents niveaux.En intégrant les informations visuelles des points d'échantillonnage et des caractéristiques multi-échelles dans les WSI, le modèle est capable de générer des cartes ST plus précises. En outre, l'équipe de recherche a également découplé le processus d'extraction de fonctionnalités multicouches plusieurs-à-un en extraction de fonctionnalités intra-couche et en extraction de fonctionnalités inter-couches, réduisant considérablement le coût de calcul et optimisant l'efficacité de calcul sans affecter les performances du modèle.

Les résultats associés ont été sélectionnés pour l'AAAI 2025 sous le titre « M2OST : régression plusieurs-à-un pour la prédiction de la transcriptomique spatiale à partir d'images de pathologie numérique ».

Points saillants de la recherche :* Conceptualiser le problème de prédiction ST comme un problème de modélisation plusieurs-à-un, et prédire conjointement la carte ST en utilisant les informations multi-échelles et les caractéristiques inter-points intégrées dans les WSI hiérarchiques * Proposer un modèle Transformer M2OST basé sur une régression plusieurs-à-un, qui est robuste aux ensembles d'entrée de différentes longueurs de séquence
* Découpler le processus d'extraction de caractéristiques multi-échelles dans M2OST en extraction de caractéristiques intra-couche et extraction de caractéristiques inter-couches, ce qui améliore considérablement l'efficacité du calcul sans affecter les performances du modèle
* Des expériences complètes ont été menées sur la méthode M2OST proposée et son efficacité a été démontrée sur trois ensembles de données ST publics

Adresse du document :
https://hyper.ai/cn/sota/papers/2409.15092
se concentrer sur HyperAlCompte public WeChat, répondez « M2OST » dans les coulisses pour obtenir le PDF complet

Le projet open source « awesome-ai4s » rassemble plus de 200 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s

Ensemble de données : utilisez 3 ensembles de données ST pour démontrer son efficacité

L'équipe de recherche a utilisé trois ensembles de données ST publics pour évaluer les performances du modèle M2OST proposé :

*Ensemble de données sur le cancer du sein humain (HBC) :Il contient 30 612 loci dans 68 WSI, chacun avec au plus 26 949 gènes différents. Les points de cet ensemble de données ont un diamètre de 100 μm et sont disposés dans une grille avec un espacement central de 200 μm.

*Ensemble de données sur les tumeurs mammaires humaines positives (HER2) :Il se compose de 36 images pathologiques et de 13 594 points, chacun contenant 15 045 données d’expression génétique enregistrées. La distance centrale entre chaque point capturé des données ST dans cet ensemble de données est de 200 μm et le diamètre de chaque point est de 100 μm.

*Ensemble de données sur le carcinome épidermoïde cutané humain (cSCC) :Comprend 12 WSI et 8 671 points. 16 959 gènes ont été analysés à chaque locus de cet ensemble de données. Tous les points ont un diamètre de 110 μm et sont disposés dans un réseau rectangulaire moyen avec une distance centrale de 150 μm.

Modèle M2OST : structure de régression plusieurs-à-un, images pathologiques multi-niveaux prédisent conjointement l'expression des gènes

Ces dernières années, la prédiction des profils de transcriptome spatial (ST) à partir d'images de pathologie en coupe entière (WSI) est devenue un point chaud de recherche dans le domaine de la pathologie numérique. Les premières méthodes telles que ST-Net et DeepSpaCE effectuent une prédiction ST au niveau du patch d'image sur la base de réseaux neuronaux convolutifs (CNN). Le cadre d'intégration bimodal BLEEP récemment publié introduit une stratégie d'apprentissage contrastif pour aligner les fonctionnalités de patch d'image WSI avec les intégrations de points ST, et introduit l'algorithme K plus proche voisin pour atténuer le problème de l'effet de lot dans l'étape d'inférence.

Avec l’essor des modèles basés sur Transformer, leurs performances ont dépassé celles du CNN traditionnel. Le modèle d'apprentissage profond HisToGene a introduit Transformer dans la prédiction de l'expression génétique pour la première fois, réalisant une modélisation au niveau des diapositives et améliorant l'efficacité, mais toujours limité par les ressources informatiques. Le modèle Hist2ST intègre CNN, Transformer et un réseau neuronal graphique pour capturer davantage les dépendances à longue distance.Cependant, la structure complexe de son modèle entraîne également un risque accru de surapprentissage.

Contrairement à l'idée dominante consistant à se concentrer sur la corrélation entre les points d'échantillonnage, iStar, une méthode basée sur l'extraction hiérarchique des caractéristiques d'image, souligne que l'expression génétique au sein du point d'échantillonnage est uniquement liée à sa zone de bloc d'image correspondante, utilise HIPT pré-entraîné pour l'extraction des caractéristiques et le mappe aux valeurs d'expression via MLP, avec d'excellentes performances.Cependant, comme les fonctionnalités ne sont pas apprenables, il existe encore une marge d’optimisation supplémentaire.

Inspirée par cela, l'équipe de rechercheM2OST utilise également une solution au niveau du bloc d'image.Prédisez un point d’échantillonnage à la fois pour garantir l’indépendance et l’exactitude de chaque prédiction.L'équipe de recherche a également élargi les idées d'iStar et conçu un ensemble de modules d'extraction et de fusion de fonctionnalités multi-échelles pouvant être appris. Grâce à une modélisation détaillée des zones locales et à l'intégration d'informations à plusieurs échelles, la capacité prédictive du modèle dans des structures organisationnelles complexes a été améliorée.

Comme le montre la figure ci-dessous, trois séquences de patchs d'images provenant de différents niveaux d'images de pathologie en coupe entière (WSI) sont entrées dans le modèle pour prédire conjointement l'expression génétique des sites correspondants.

Après avoir reçu les blocs d'images pathologiques de 3 niveaux différents,Tout d’abord, M2OST les alimente dans la couche d’intégration de blocs déformables (DPE).Pour réaliser une génération de jetons adaptatifs. DPE extrait non seulement les patchs de pathologie de base de chaque image, mais introduit également des patchs de plus grande taille dans les images de pathologie de haut niveau pour capturer des informations contextuelles plus larges.

Dans le même temps, DPE génère des jetons intra-point à grain fin et des jetons environnants à grain grossier pour renforcer la concentration du modèle sur les caractéristiques de la zone centrale du point d'échantillonnage, mettant ainsi en évidence les caractéristiques inter-points dans le processus de modélisation plusieurs-à-un et fournissant une représentation des caractéristiques plus raffinée et structurée pour la prédiction d'expression ultérieure.

Diagramme du modèle M2OST

DPE utilisé dans M2OST

Ensuite, le jeton cls est ajouté à chaque séquence et, comme indiqué dans le PE de la figure, un codage de position apprenable est introduit. M2OST utilise le module hybride de jeton interne (ITMM) pour extraire les fonctionnalités intra-couche de chaque séquence. ITMM est construit sur l'architecture Vision Transformer et introduit le mécanisme d'auto-attention de masque aléatoire (Rand Mask Self-Attn) pour améliorer la capacité de généralisation du modèle dans le processus de modélisation d'image.

Structure du réseau de l'ITMM

Une fois l'extraction des fonctionnalités intra-couche terminée, M2OST introduit un module de mélange de jetons inter-couches (CTMM) pour favoriser l'interaction des informations inter-couches entre les séquences multicouches.En raison des différences de longueur des séquences d'entrée multi-échelles, CTMM introduit un mécanisme d'attention inter-couches entièrement connecté pour éviter la distorsion des informations causée par la fusion directe tout en maintenant l'indépendance relative des paramètres de chaque branche d'échelle.Par la suite, afin d'améliorer la capacité d'échange d'informations inter-échelles au niveau du canal, M2OST a introduit un module de mixage de canaux inter-couches (CCMM) après CTMM.

Le CCMM adopte une conception de structure insensible à la longueur de la séquence.CTMM intègre dynamiquement des informations contextuelles à plusieurs échelles en fonction de la similarité d'attention et des poids apprenables entre différentes couches, et génère des séquences multicouches de la même forme.Tout d’abord, un regroupement moyen global est effectué sur la séquence de chaque couche pour compresser ses informations de séquence dans une représentation de jeton. Ensuite, les jetons de différentes couches sont combinés et le score d'attention du canal inter-couches est calculé en combinaison avec le mécanisme d'incitation à la compression (Squeeze & Excitation). Ces scores sont ensuite mappés à leurs séquences d'entrée respectives, complétant ainsi l'échange d'informations inter-échelles au niveau du canal.

(a) Structure du réseau du CTMM. (b) La structure du réseau du CCMM.

Ce processus de modélisation de caractéristiques multi-échelles constitue dans son ensemble le module d'encodeur de M2OST et est itéré N fois dans tout le réseau pour enrichir progressivement la représentation d'image multi-niveaux et hautement expressive requise pour la prédiction du transcriptome spatial.enfin,Les trois jetons cls sont connectés et introduits dans la tête de régression linéaire pour la prédiction du point ST.

Résultats expérimentaux : L'évaluation multidimensionnelle prouve l'efficacité du modèle M2OST

L’équipe de recherche a comparé de manière exhaustive les performances de M2OST avec une variété de méthodes courantes sur plusieurs ensembles de données. Les résultats expérimentaux sont présentés dans le tableau suivant.M2OST atteint des performances supérieures avec moins de paramètres et moins de FLOP.Par rapport à ST-Net, le nombre de paramètres de M2OST est réduit de 0,40 M, les FLOP sont réduits de 0,63 G et le coefficient de corrélation de Pearson (PCC) de M2OST sur les ensembles de données HER2+ et cSCC est amélioré de 1,161 TP3T et 1,131 TP3T respectivement.

Résultats expérimentaux comparatifs de M2OST et d'autres méthodes

Comparaison de M2OST avec des méthodes multi-échelles un à un :

L'équipe de recherche a également comparé M2OST avec des méthodes multi-échelles un à un courantes telles que CrossViT et HIPT/iStar. Comparé au ViT standard, CrossViT démontre des capacités de régression ST plus fortes, confirmant les avantages significatifs de l'intégration d'informations multi-échelles dans cette tâche. Cependant, CrossViT présente certaines limitations dans la modélisation des informations intra-point, et ses performances globales sont toujours inférieures à celles de M2OST.

De plus, iStar présente de bonnes performances en termes de précision de prédiction ST, démontrant l'efficacité de l'architecture HIPT dans l'extraction de fonctionnalités multi-échelles à partir de WSI. Cependant, afin de réduire les coûts de calcul, iStar utilise des poids HIPT fixes pour générer des fonctionnalités WSI pour la prédiction ST, ce qui limite sa capacité d'extraction de fonctionnalités. Parallèlement, en termes d’efficacité d’inférence, le processus d’extraction bloc par bloc et échelle par échelle d’iStar augmente considérablement le temps de traitement. Les résultats de la recherche montrent que lorsqu'il est exécuté sous la même limite de mémoire GPU, la vitesse d'inférence de M2OST est environ 100 fois plus rapide que celle d'iStar, et ses performances sont toujours meilleures que ce dernier, ce qui démontre pleinement le potentiel de la formation de bout en bout dans les tâches de régression ST et l'efficacité du modèle M2OST.

Comparaison des méthodes ST au niveau du patch d'image et au niveau de la lame :

Les résultats expérimentaux montrent que les performances des méthodes au niveau des diapositives sur les trois ensembles de données sont généralement inférieures à celles des méthodes au niveau des blocs d’images. Bien que Hist2ST présente de meilleures performances que HisToGene, son grand nombre de paramètres et ses FLOP élevés rendent cette amélioration des performances insignifiante. Par rapport aux méthodes de niveau bloc d'image de base telles que ST-Net, le PCC de Hist2ST sur les trois ensembles de données est réduit respectivement de 2,78%, 2,99% et 2,66%. Cela indique que l’expression génétique d’un point est principalement liée à sa région tissulaire correspondante, et l’introduction d’une corrélation inter-points n’améliore pas significativement la précision de la prédiction. Néanmoins, la méthode de niveau de glissement est toujours plus efficace pour générer des cartes ST complètes, et il existe encore un potentiel pour atteindre une précision de régression compétitive en optimisant la conception du réseau à l'avenir.

Analyse visuelle :

(a) Visualisation du profil du transcriptome spatial (ST) après analyse en composantes principales (ACP). (b) Visualisation de la distribution spatiale du gène DDX5.

L'équipe de recherche a analysé et comparé les résultats de visualisation de différentes méthodes de prédiction de cartes ST. Les résultats ont montré que les méthodes au niveau des diapositives (telles que HisToGene et Hist2ST) peuvent généralement générer des cartes plus lisses, tandis que les méthodes au niveau des blocs d'images conservent des caractéristiques structurelles locales plus claires.

Il est à noter que M2OST est toujours capable de générer des cartes ST plus précises, présentant une précision de prédiction plus élevée. L'équipe de recherche a également visualisé l'expression du gène clé DDX5, qui joue un rôle clé dans la prolifération et la tumorigenèse des cellules cancéreuses non à petites cellules en activant la voie de signalisation de la β-caténine. Les résultats ont montré que M2OST a obtenu les meilleurs résultats dans la prédiction de ce gène, surpassant toutes les méthodes comparées, vérifiant la précision du modèle M2OST au niveau de prédiction de l'expression d'un seul gène.

Progrès révolutionnaires et applications inter-domaines de la transcriptomique spatiale

La transcriptomique spatiale, en tant que pont reliant la fonction cellulaire et la structure tissulaire, peut analyser les modèles d'expression génétique des cellules individuelles dans le temps et l'espace, et révéler la localisation spatiale et les caractéristiques biologiques des populations cellulaires, ce qui pousse la recherche biomédicale à un niveau plus profond.

Dans ce domaine, d’ici avril 2025,Une équipe de recherche de l'Institut des sciences médicales de l'Université de Tokyo, au Japon, a développé un cadre d'apprentissage profond STAIG pour l'analyse transcriptomique spatiale basée sur l'apprentissage par contraste de graphes assisté par image.Le cadre est capable d’intégrer l’expression génétique, les données spatiales et les images histologiques sans avoir besoin d’aligner les données, surmontant ainsi les limites des méthodes traditionnelles d’élimination des effets de lot et d’identification des régions spatiales. STAIG extrait des caractéristiques d'images colorées à l'hématoxyline et à l'éosine (H&E) grâce à un apprentissage auto-supervisé sans s'appuyer sur des ensembles de données à grande échelle pour la pré-formation.

Pendant la formation, STAIG ajuste dynamiquement la structure du graphique et exclut sélectivement les échantillons négatifs non pertinents via des images histologiques, réduisant ainsi les biais. En fin de compte, STAIG a réussi à intégrer les lots en analysant les points communs de l'expression des gènes par comparaison locale, évitant ainsi la complexité de l'alignement manuel des coordonnées et réduisant considérablement les effets de lot. Des études ont montré que STAIG fonctionne bien sur plusieurs ensembles de données, en particulier dans l'identification des régions spatiales, et peut révéler des informations génétiques et spatiales détaillées dans le microenvironnement tumoral, démontrant son potentiel important pour analyser la complexité de la biologie spatiale.

Cliquez pour voir le rapport détaillé : Pas besoin de pré-alignement pour éliminer les effets de lot, l'équipe de l'Université de Tokyo a développé un cadre d'apprentissage profond STAIG pour révéler des informations génétiques détaillées dans le microenvironnement tumoral

Dans le même temps, l’équipe de recherche de Wei Wu au laboratoire Lingang de Shanghai, en Chine, a également réalisé des progrès significatifs dans le domaine de la transcriptomique spatiale. En novembre 2024, l'équipe a publié un article de recherche intitulé « MCGAE : démêler l'invasion tumorale grâce à la transcriptomique spatiale multimodale intégrée » dans la revue Briefings in Bioinformatics. Cette étude a développé un cadre d'apprentissage profond MCGAE (Multi-View Contrastive Graph Autoencoder) conçu spécifiquement pour l'analyse des données du transcriptome spatial.Ce cadre crée des représentations biologiques multimodales et multi-vues en combinant l'expression génétique, les coordonnées spatiales et les caractéristiques de l'image, améliorant considérablement la précision de la reconnaissance du domaine spatial.Les données tumorales démontrent une identification précise des régions tumorales et une analyse approfondie des caractéristiques de régulation moléculaire, fournissant un outil puissant pour la recherche sur les tissus complexes, la recherche sur les mécanismes des maladies et la découverte de cibles médicamenteuses.

Article original :
https://academic.oup.com/bib/article-pdf/26/1/bbae608/60786360/bbae608.pdf

En outre, l’application de la transcriptomique spatiale en agriculture présente également un grand potentiel. En avril 2025, une équipe de recherche de l'Institut de recherche agricole moderne de l'Université de Pékin a publié une étude importante intitulée « La transcription spatio-temporelle révèle une régulation génétique clé pour le rendement et la qualité des grains du blé » dans Genome Biology.En utilisant la technologie du transcriptome spatial, une carte d’expression génétique à haute résolution des grains de blé à différentes périodes au cours du développement précoce a été construite.A révélé les caractéristiques d’expression des gènes au cours du développement du grain de blé. Cette recherche fournit non seulement un soutien théorique important à la sélection moléculaire et à l’amélioration du rendement du blé, mais offre également une solide garantie pour la sécurité alimentaire mondiale.

Article original :
https://www.biorxiv.org/content/biorxiv/early/2024/06/03/2024.06.02.596756.full.pdf

À l'avenir, avec l'accumulation continue de données de transcriptome spatial et l'optimisation continue des méthodes d'acquisition d'images de pathologie numérique, l'intégration profonde de l'intelligence artificielle et des technologies omiques favorisera l'application généralisée de modèles d'apprentissage profond dans divers types de tissus et contextes pathologiques, et contribuera au développement de la médecine de précision. La proposition de M2OST a jeté des bases solides pour la construction d'un cadre de prédiction de l'expression spatiale des gènes efficace, peu coûteux et de haute précision, et annonce les perspectives profondes de l'intelligence artificielle et de l'analyse de fusion de données multi-omiques dans le domaine biomédical.