CellForge : conception agente de modèles cellulaires virtuels

La modélisation virtuelle des cellules constitue une frontière émergente à l’intersection de l’intelligence artificielle et de la biologie, visant à prédire de manière quantitative des quantités telles que les réponses à diverses perturbations. Toutefois, la construction autonome de modèles computationnels pour des cellules virtuelles s’avère particulièrement complexe en raison de la complexité des systèmes biologiques, de l’hétérogénéité des modalités de données et de la nécessité d’expertise spécifique au domaine à travers plusieurs disciplines. Dans cette étude, nous introduisons CellForge, un système agissant fondé sur un cadre multi-agents qui transforme directement des jeux de données biologiques et des objectifs de recherche en modèles computationnels optimisés pour des cellules virtuelles. Plus précisément, à partir uniquement de données brutes de multi-omiques à l’échelle d’une cellule unique et de descriptions de tâches en entrée, CellForge génère à la fois une architecture de modèle optimisée et un code exécutable pour l’entraînement et l’inférence des modèles de cellules virtuelles. Ce cadre intègre trois modules centraux : l’analyse de tâche, chargée de caractériser les jeux de données fournis et de récupérer la littérature pertinente ; la conception de méthodes, où des agents spécialisés collaborent pour élaborer des stratégies de modélisation optimisées ; et l’exécution expérimentale, responsable de la génération automatisée du code. Les agents du module de conception sont répartis en experts aux points de vue différents, sous la supervision d’un modérateur central, et doivent échanger leurs solutions de manière collaborative jusqu’à atteindre un consensus raisonnable. Nous démontrons les capacités de CellForge dans la prédiction des perturbations à l’échelle des cellules uniques, en utilisant six jeux de données diversifiés couvrant des perturbations telles que des knockouts géniques, des traitements médicamenteux et des stimulations par cytokines, à travers plusieurs modalités. CellForge surpasse de manière cohérente les méthodes de pointe spécifiques à chaque tâche. Globalement, ces résultats montrent que l’interaction itérative entre des agents basés sur des grands modèles linguistiques (LLM) aux perspectives différentes permet d’obtenir des solutions supérieures à celles obtenues par une approche directe du défi de modélisation. Le code est disponible publiquement à l’adresse suivante : https://github.com/gersteinlab/CellForge.