IJCAI 2025 | 7データセット検証:scSiameseCluは教師なし単一細胞クラスタリングタスクでSOTAパフォーマンスを達成

これまで、生命科学研究は「集団」レベルに焦点が当てられることが多かった。従来のバルクRNA-Seqでは、集団内の細胞の平均遺伝子発現が得られるものの、一部の希少細胞の特性が不明瞭になる可能性がある。今日、研究者たちは「単一」細胞の声を聞きたいとますます願っている。
シングルセルRNAシーケンシング(scRNA-seq)は、細胞集団の喧騒の中で単一細胞の包括的な遺伝情報を捉え、隠れた複雑な特徴を明らかにする革新的な技術です。この複雑な情報を理解するために、重要なステップである細胞のクラスタリングが必要です。遺伝子発現の類似性に基づいて細胞をグループ化することは困難なプロセスです。
scRNA-seqデータは、高ノイズ、高スパース性、高次元性を特徴としています。最も効果的なグラフニューラルネットワーク(GNN)手法でさえ、現状では「不十分なグラフ構築」や「表現の崩壊」といった問題を抱えています。下の図に示すように、ディープラーニングベースのscNAMEとグラフニューラルネットワークベースのscGNNはどちらも表現結果が徐々に収束しつつあり、表現の崩壊の程度は様々であることを示しています。言い換えれば、細胞の違いを真に保持できるクラスタリングツールは未だ存在しないということです。

このジレンマに対処するため、中国科学院、東北農業大学、マカオ大学、吉林大学の研究チームは共同で、単一細胞RNA-seqデータの解釈を目的とした新たなツインクラスタリングフレームワーク「scSiameseClu」を提案しました。scSiameseCluは、複雑な細胞間情報を捕捉・精緻化すると同時に、遺伝子レベルと細胞レベルで識別力と堅牢性を兼ね備えた表現を学習することを目的としています。このフレームワークは、デュアルエンハンスメント、ツインフュージョン、最適伝送クラスタリングという 3 つの主要モジュールを統合しています。この設計により、scSiameseClu は表現の崩壊の問題を効果的に軽減し、より明確な細胞集団の分類を実現し、scRNA-seq データの分析に強力なツールを提供できます。
関連研究「scSiameseClu: 単一細胞RNAシーケンスデータを解釈するためのSiameseクラスタリングフレームワーク」がIJCAI 2025に選出され、プレプリントがarXivで公開されました。
研究のハイライト:
* scSiameseClu は、遺伝子発現と細胞マップから複雑な情報を取得し、識別力と堅牢性を備えた細胞埋め込みを学習して、クラスタリング結果と下流タスクを改善します。
* 主要モジュールを導入し、「強化・融合・クラスタリング」の完全なフレームワークを構築しました。
* scSiameseClu は、クラスタリングやその他の生物学的タスクにおいて SOTA 方式よりも優れたパフォーマンスを発揮します。

用紙のアドレス:
公式アカウントをフォローし、「Twin Clustering Framework」と返信すると、完全なPDFが入手できます。
AIフロンティアに関するその他の論文:
https://hyper.ai/papers
複数の組織と種をカバーする7つの実世界データセット
scSiameseClu のパフォーマンスを総合的に評価するために、研究チームは 7 つの実際の scRNA-seq データセットで実験を実施しました。3個未満の細胞で発現している遺伝子は除外、正規化、対数変換(logTPM)され、事前に定義された平均値と分散値の閾値に基づいて、変動の大きい遺伝子が選択されました。これらの前処理済みデータセットは、マウスサンプル3個とヒトサンプル4個で構成されており、遺伝子数、細胞数、スパース性が異なる様々な細胞タイプ(網膜、肺、肝臓、腎臓、膵臓など)をカバーしています。以下の図は、使用されたデータセットの概要を示しています。

ツインクラスタリングフレームワークの3つのモジュール
研究チームが提案したscSiameseCluは、拡張グラフオートエンコーダに基づくツインクラスタリングフレームワークです。このフレームワークは3つのモジュールで構成されています。
(i) デュアル増強モジュール
(ii) シャム核融合モジュール
(iii) 自己教師学習のための最適なトランスポートクラスタリング。

デュアル拡張モジュール
この研究における二重強化モジュールは 「遺伝子発現の強化+細胞マップの強化」モデルのノイズ耐性と様々なデータセットへの汎化能力を向上させるため、研究チームは遺伝子発現の自然な変動をシミュレートするガウスノイズを追加し、遺伝子レベルでの堅牢性を強化しました。エッジ摂動法とグラフ拡散法を採用することで、それぞれ強化された隣接行列を生成し、細胞グラフを異なるが補完的な視点から処理することで、モデルが細胞間の多様な相互作用を捉えられるようになりました。
ツイン核融合モジュール
ツインフュージョンモジュール (SFM) は、scSiameseClu の革新的な設計の中核です。「相互相関の改善」と「適応型情報融合」を統合した戦略を採用しています。具体的には、前者はオートエンコーダを構築し、強化された遺伝子発現マトリックスと細胞マップマトリックスを個別に処理し、潜在空間でそれらを整列させて融合します。後者は、埋め込み集約、自己相関学習、動的再編成を通じて細胞関係を統合し、冗長情報を効果的にフィルタリングして、潜在空間で識別機能を保持することで、堅牢で意味のある表現を学習し、表現の崩壊を回避しながらクラスタリングのパフォーマンスを向上させます。
さらに、このフレームワークは、ジェンセン・シャノン情報量を使用してグラフ伝播後の元の埋め込みと埋め込みの一貫性を制限する伝播正規化項を導入し、情報フローを維持しながらグラフニューラルネットワークの過剰平滑化問題を軽減します。
最適伝送クラスタリング
研究チームはまずスチューデントt分布を使用して細胞とクラスター中心の類似性を計算し、次にシンクホーンアルゴリズムを使用して予測分布を調整および修正しました。これにより、クラスターの分散のバランスが確保され、崩壊の問題が回避されます。
scRNA-seqフレームワークの優れたパフォーマンスの複数の検証
scRNA-seqフレームワークのクラスタリングにおける優れた性能は、広範な実験検証の結果です。まず、主流の手法との包括的な比較を実施しました。研究チームは、従来のクラスタリング手法、ディープニューラルネットワークに基づく手法、グラフニューラルネットワークに基づくクラスタリング手法など、9つの最先端のベンチマークモデルを選択しました。上記の7つの実世界データセットを用いて、広く認知されている3つのクラスタリング指標、すなわち精度(ACC)、正規化相互情報量(NMI)、調整済みランダム指数(ARI)を用いて性能を評価しました。
結果は、scSiameseCluが3つの指標すべてで明確な優位性を示していることを示しています。総合スコアが高いだけでなく、異なるデータセット間でもパフォーマンスが安定しています。ヒト肝細胞データセットの視覚的な比較からわかるように、scSiameseClu は他のベンチマーク モデルと比較して明確な境界と優れた分離を備えたクラスターを生成でき、異なる細胞タイプを効果的に区別できます。

次に、下流実験において、研究チームは細胞タイプのアノテーションを実施しました。ヒト膵臓データセットにおいて、Seuratツールを用いて発現レベルが異なる遺伝子とマーカー遺伝子を同定しました。次に、scSiameseCluなどの手法で同定された上位50のマーカー遺伝子をゴールドスタンダードと比較しました。その結果、ほとんどのクラスターが90%を超える類似性を示し、既知の細胞タイプに正確にマッピングされていることが示されました。また、モデルは各クラスターのマーカー遺伝子も同定しました。
さらに細胞分類実験を行ったところ、scSiameseClu は精度や F1 値などの複数の指標においてベースライン モデルを上回り、細胞の異質性と種類の識別を明らかにする上での利点を実証しました。


最後に、研究チームはアブレーション実験において、Shekharマウス網膜細胞データセットからscSiameseCluの主要コンポーネント(SFMロス、ZINBロス、OTCロスなど)を除去し、それらを完全モデルと比較することで、フレームワークの各モジュールの有効性を評価しました。その結果、各コンポーネントがパフォーマンスを大幅に向上させる一方で、いずれかのコンポーネントが欠落するとパフォーマンスが低下することが示されました。さらにSFMモジュールを分解し、細胞依存リファインメント、電位依存リファインメント、伝播正規化、再構成ロスを除去すると、パフォーマンスの低下が見られました。しかし、すべてのコンポーネントが含まれたscSiameseCluは大幅なパフォーマンス向上を示し、ゲノム情報と細胞情報の効率的な統合を実証しました。

計算生物学の新たな繁栄の時代に向けて
計算生物学の観点から見ると、scSiameseClu は、コンピューター サイエンスにおける二重強化、ツイン融合、最適伝送クラスタリングなどの手法を活用して、生物学における細胞の異質性を分析するという長年の問題を効果的に解決しました。これは単なる新しいタイプのクラスタリング ツールであり、計算手法と生命科学の深い統合の分野における多くの新たな試みの 1 つであると言えます。さらに、人工知能アルゴリズムと生物学の急速な発展により、新たな結果が絶えず生まれています。
シンガポール国立大学の張楊教授率いるチームは、高精度なディープラーニングベースのRNA構造予測フレームワーク「DRfold2」を提案しました。DRfold2は、事前学習済みのRNA複合言語モデル(RCLM)とノイズ除去構造モジュールを統合し、エンドツーエンドのRNA構造予測を実現します。研究成果は、「複合言語モデルとノイズ除去エンドツーエンド学習によるアブイニチオRNA構造予測」というタイトルで、bioRxivプレプリントプラットフォームに掲載されました。
用紙のアドレス:
https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1
米国ベイラー医科大学の研究チームは、タンパク質の翻訳後修飾(PTM)を予測するためのディープラーニングベースのフレームワーク「DeepMVP」を提案しました。DeepMVPは、高品質なPTMAtlasデータセットを統合し、PTM部位とミスセンス変異による変化を正確に予測します。研究成果は、「DeepMVP:高品質データで訓練されたディープラーニングモデルがPTM部位と変異誘発性変化を正確に予測」というタイトルでNature Methods誌に掲載されました。
用紙のアドレス:
https://www.nature.com/articles/s41592-025-02797-x