HyperAIHyperAI

IJCAI 2025 | Validierung Von 7 Datensätzen: scSiameseClu Erreicht SOTA-Leistung Bei Unbeaufsichtigten Einzelzell-Clustering-Aufgaben

特色图像

In der Vergangenheit lag der Schwerpunkt der biowissenschaftlichen Forschung oft auf der Populationsebene. Durch herkömmliche Massen-RNA-Sequenzierung können wir die durchschnittliche Genexpression von Zellen in einer Population ermitteln, was jedoch bedeutet, dass die Eigenschaften einiger seltener Zellen möglicherweise verdeckt bleiben.Heute hoffen Forscher zunehmend, die Stimmen „einzelner“ Zellen zu hören.

Die Einzelzell-RNA-Sequenzierung (scRNA-seq) ist eine revolutionäre Technologie, die die umfassenden genetischen Informationen einer einzelnen Zelle inmitten des Trubels einer Zellpopulation erfassen und so verborgene komplexe Merkmale aufdecken kann. Um diese komplexen Informationen zu verstehen,Ein wichtiger Schritt ist erforderlich: die Zellclusterung.Das Gruppieren von Zellen auf der Grundlage von Ähnlichkeiten in der Genexpression ist ein anspruchsvoller Prozess.

scRNA-seq-Daten zeichnen sich durch hohes Rauschen, hohe Spärlichkeit und hohe Dimensionalität aus. Selbst die effektivste Methode der Graph-Neural-Network-Technik (GNNs) weist derzeit Probleme wie unzureichende Graphkonstruktion und Darstellungskollaps auf.Wie in der folgenden Abbildung dargestellt, haben sich sowohl das Deep-Learning-basierte scNAME als auch das Graph-Neural-Network-basierte scGNN in ihren Darstellungsergebnissen allmählich angenähert, was auf einen unterschiedlich starken Zusammenbruch der Darstellung hindeutet. Mit anderen Worten: Es fehlt noch immer ein Clustering-Tool, das zelluläre Unterschiede wirklich bewahren kann.


Ähnlichkeitsverteilung von Zelleinbettungen zwischen scNAME und scGNN im selben Datensatz

Um dieses Dilemma zu lösen, haben Forschungsteams der Chinesischen Akademie der Wissenschaften, der Northeast Agricultural University, der Universität Macau und der Jilin University gemeinsam ein neuartiges Twin-Clustering-Framework namens scSiameseClu zur Interpretation von Einzelzell-RNA-Sequenzdaten vorgeschlagen. Ziel ist es, komplexe interzelluläre Informationen zu erfassen und zu verfeinern und gleichzeitig diskriminierende und robuste Darstellungen auf Gen- und Zellebene zu erlernen.Das Framework integriert drei Schlüsselmodule: Dual Enhancement, Twin Fusion und optimales Transmission Clustering.Durch dieses Design kann scSiameseClu das Problem des Darstellungskollapses wirksam lindern, eine klarere Klassifizierung der Zellpopulation erreichen und ein leistungsfähiges Tool für die Analyse von scRNA-seq-Daten bereitstellen.

Die zugehörige Forschung mit dem Titel „scSiameseClu: A Siamese Clustering Framework for Interpreting single-cell RNA Sequencing Data“ wurde für IJCAI 2025 ausgewählt und ein Vorabdruck wurde auf arXiv veröffentlicht.

Forschungshighlights:

* scSiameseClu kann komplexe Informationen aus der Genexpression und Zellkarten erfassen, um diskriminierende und robuste Zelleinbettungen zu erlernen und so Clusterergebnisse und nachgelagerte Aufgaben zu verbessern;

* Einführung wichtiger Module und Aufbau eines vollständigen Frameworks für „Enhancement-Fusion-Clustering“;

* scSiameseClu übertrifft SOTA-Methoden beim Clustering und anderen biologischen Aufgaben.

Papieradresse:

https://go.hyper.ai/00BhP

Folgen Sie dem offiziellen Konto und antworten Sie mit „Twin Clustering Framework“, um das vollständige PDF zu erhalten

Weitere Artikel zu den Grenzen der KI:
https://hyper.ai/papers

7 reale Datensätze, die mehrere Gewebe und Arten abdecken

Um die Leistung von scSiameseClu umfassend zu bewerten, führte das Forschungsteam Experimente mit sieben echten scRNA-seq-Datensätzen durch.Gene, die in weniger als drei Zellen exprimiert wurden, wurden herausgefiltert, normalisiert, log-transformiert (logTPM) und hochvariable Gene wurden anhand vordefinierter Mittelwert- und Streuungsschwellenwerte ausgewählt. Diese vorverarbeiteten Datensätze bestehen aus drei Mausproben und vier menschlichen Proben und decken eine Vielzahl von Zelltypen (z. B. Netzhaut, Lunge, Leber, Niere und Bauchspeicheldrüse) mit unterschiedlichen Genzahlen, Zelltypzahlen und Spärlichkeiten ab. Die folgende Abbildung bietet einen Überblick über die verwendeten Datensätze.


Übersicht über 7 scRNA-seq-Datensätze

Die drei Module des Twin-Clustering-Frameworks

Das vom Forschungsteam vorgeschlagene scSiameseClu ist ein Twin-Clustering-Framework, das auf erweiterten Graph-Autoencodern basiert. Das Framework besteht aus drei Modulen:

(i) Duales Augmentationsmodul;

(ii) Siamesisches Fusionsmodul;

(iii) Optimale Transportclusterung für selbstüberwachtes Lernen.


scSiameseClu Architekturübersicht

Duales Verbesserungsmodul

Das duale Verbesserungsmodul in dieser Studie ist "Genexpressionsverbesserung + Zellkartenverbesserung",Um die Robustheit des Modells gegenüber Rauschen und seine Generalisierungsfähigkeit auf verschiedene Datensätze zu verbessern, fügte das Forschungsteam Gaußsches Rauschen hinzu, um die natürlichen Schwankungen der Genexpression zu simulieren und so die Robustheit auf Genebene zu erhöhen. Durch den Einsatz von Kantenstörungs- und Graphdiffusionsstrategien generierten sie jeweils verbesserte Adjazenzmatrizen, indem sie den Zellgraphen aus unterschiedlichen, aber komplementären Perspektiven verarbeiteten. Dadurch konnte das Modell die vielfältigen Interaktionen zwischen Zellen erfassen.

Twin-Fusion-Modul

Das Twin Fusion Module (SFM) ist das innovative Kerndesign von scSiameseClu.Es wird eine Strategie verfolgt, die „Kreuzkorrelationsverfeinerung“ und „adaptive Informationsfusion“ integriert.Insbesondere konstruiert ersterer einen Autoencoder, um die verbesserte Genexpression-Matrix und die Zellkarten-Matrix separat zu verarbeiten und sie im latenten Raum auszurichten und zu verschmelzen; letzterer integriert Zellbeziehungen durch Einbettung von Aggregation, Autokorrelationslernen und dynamische Reorganisation, filtert redundante Informationen effektiv heraus und behält die diskriminierenden Merkmale im latenten Raum bei, wodurch er robuste und aussagekräftige Darstellungen erlernen kann, wodurch die Clusterleistung verbessert und ein Darstellungskollaps vermieden wird.

Darüber hinaus führt das Framework einen Ausbreitungsregularisierungsterm ein, um die Konsistenz der ursprünglichen Einbettung und der Einbettung nach der Graphausbreitung mithilfe der Jensen-Shannon-Divergenz einzuschränken, wodurch das Überglättungsproblem von Graph-Neuralnetzwerken gemildert wird und gleichzeitig der Informationsfluss aufrechterhalten wird.

Optimales Übertragungsclustering

Das Forschungsteam verwendete zunächst die Student-t-Verteilung, um die Ähnlichkeit zwischen Zellen und Clusterzentren zu berechnen, und verwendete dann den Sinkhorn-Algorithmus, um die vorhergesagte Verteilung auszurichten und zu korrigieren.Dadurch wird die Ausgewogenheit der Clusterverteilung sichergestellt und das Kollapsproblem vermieden.

Mehrere Validierungen der überlegenen Leistung des scRNA-seq-Frameworks

Die überlegene Leistung des scRNA-seq-Frameworks im Clustering ist das Ergebnis einer umfangreichen experimentellen Validierung. Zunächst wurde ein umfassender Vergleich mit gängigen Methoden durchgeführt. Das Forschungsteam wählte neun hochmoderne Benchmark-Modelle aus, darunter traditionelle Clustering-Methoden, Methoden auf Basis tiefer neuronaler Netzwerke und Clustering-Methoden auf Basis graphischer neuronaler Netzwerke. Anhand der sieben oben genannten realen Datensätze bewertete das Team die Leistung anhand dreier allgemein anerkannter Clustering-Metriken: Genauigkeit (ACC), Normalized Mutual Information (NMI) und Adjusted Rand Index (ARI).

Die Ergebnisse zeigen, dass scSiameseClu bei allen drei Indikatoren einen klaren Vorteil hat. Nicht nur die Gesamtpunktzahl ist höher, sondern die Leistung ist auch über verschiedene Datensätze hinweg stabil.Wie aus dem visuellen Vergleich des Datensatzes menschlicher Leberzellen hervorgeht, kann scSiameseClu im Vergleich zu anderen Benchmark-Modellen Cluster mit klaren Grenzen und guter Trennung erzeugen und verschiedene Zelltypen effektiv unterscheiden.


Visualisierungsergebnisse von scSiameseClu und vier typischen Benchmark-Methoden an menschlichen Hepatozyten

Anschließend führte das Forschungsteam in nachfolgenden Experimenten eine Zelltypannotation durch. In einem Datensatz der menschlichen Bauchspeicheldrüse nutzten sie das Seurat-Tool, um unterschiedlich exprimierte Gene und Markergene zu identifizieren. Anschließend verglichen sie die 50 wichtigsten Markergene, die mit scSiameseClu und anderen Methoden identifiziert wurden, mit dem Goldstandard. Die Ergebnisse zeigten, dass die meisten Cluster eine Ähnlichkeit von über 90% aufwiesen und somit genau bekannten Zelltypen zugeordnet werden konnten. Das Modell identifizierte auch die Markergene für jeden Cluster.

Weitere Experimente zur Zellklassifizierung zeigten außerdem, dass scSiameseClu das Basismodell bei mehreren Indikatoren wie Genauigkeit und F1-Wert übertraf, was seine Vorteile bei der Aufdeckung von Zellheterogenität und Typunterscheidung bestätigte.


Überlappung unterschiedlich exprimierter Gene mit Goldstandard-Zelltypen


Vergleich der Klassifizierungsleistung

Schließlich entfernte das Forschungsteam in Ablationsexperimenten Schlüsselkomponenten von scSiameseClu (einschließlich SFM-, ZINB- und OTC-Verlust) aus dem Shekhar-Maus-Netzhautzellen-Datensatz und verglich sie mit dem vollständigen Modell, um die Wirksamkeit jedes Moduls des Frameworks zu bewerten. Die Ergebnisse zeigten, dass jede Komponente die Leistung deutlich verbesserte, während das Fehlen einer einzelnen Komponente zu einer Leistungsminderung führte. Die weitere Demontage des SFM-Moduls, das Entfernen der zellabhängigen Verfeinerung, der potentialabhängigen Verfeinerung, der Ausbreitungsregularisierung und des Rekonstruktionsverlusts, zeigte eine Leistungsverschlechterung. scSiameseClu zeigte jedoch mit allen enthaltenen Komponenten signifikante Leistungsverbesserungen und demonstrierte damit die effektive Integration genomischer und zellulärer Informationen.


Shekhar-Ablationsexperimente am Datensatz der Netzhautzellen von Mäusen

Auf dem Weg in eine neue Ära florierender Computerbiologie

Aus der Perspektive der Computerbiologie hat scSiameseClu das langjährige Problem der Analyse zellulärer Heterogenität in der Biologie effektiv gelöst, indem es Methoden wie Doppelverstärkung, Zwillingsfusion und optimale Übertragungsclusterung in der Informatik nutzt.Man kann sagen, dass es sich lediglich um eine neue Art von Clustering-Tool und einen von vielen neuen Versuchen im Bereich der tiefen Integration von Computermethoden und Biowissenschaften handelt.Darüber hinaus entstehen durch die rasante Entwicklung der Algorithmen und der Biologie der künstlichen Intelligenz ständig neue Ergebnisse.

Das Team von Professor Zhang Yang an der National University of Singapore hat mit DRfold2 ein hochpräzises, auf Deep Learning basierendes Framework zur Vorhersage von RNA-Strukturen entwickelt. DRfold2 integriert ein vortrainiertes RNA-Composite-Language-Modell (RCLM) und ein denoisiertes Strukturmodul für die End-to-End-RNA-Strukturvorhersage. Die Ergebnisse wurden auf der Preprint-Plattform bioRxiv unter dem Titel „Ab initio RNA structure prediction with composite language model and denoised end-to-end learning“ veröffentlicht.
Papieradresse:
https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1

Ein Forschungsteam des Baylor College of Medicine in den USA hat ein Deep-Learning-basiertes Framework zur Vorhersage posttranslationaler Proteinmodifikationen namens DeepMVP vorgeschlagen. DeepMVP integriert den hochwertigen PTMAtlas-Datensatz, um PTM-Stellen und durch Missense-Varianten verursachte Veränderungen präzise vorherzusagen. Die Ergebnisse wurden in Nature Methods unter dem Titel „DeepMVP: Mit hochwertigen Daten trainierte Deep-Learning-Modelle sagen PTM-Stellen und variantenbedingte Veränderungen präzise voraus“ veröffentlicht.
Papieradresse:
https://www.nature.com/articles/s41592-025-02797-x