Conception d’éditeurs génomiques hautement fonctionnels par modélisation des séquences CRISPR-Cas

La modification génétique possède un potentiel considérable pour résoudre des défis fondamentaux en agriculture, en biotechnologie et en santé humaine. Bien que les outils de modification génétique basés sur CRISPR, dérivés de micro-organismes, soient puissants, ils présentent souvent des compromis fonctionnels marqués lorsqu’ils sont transférés dans des environnements non naturels, tels que les cellules humaines1. La conception assistée par intelligence artificielle constitue une alternative prometteuse, capable de contourner les contraintes évolutive et de générer des outils d’édition optimisés. Dans cette étude, en utilisant des modèles de langage à grande échelle2 entraînés sur la diversité biologique à grande échelle, nous démontrons une édition précise du génome humain à l’aide d’un outil de modification génétique programmable conçu par intelligence artificielle. Pour atteindre cet objectif, nous avons constitué un jeu de données comprenant plus d’un million d’opérons CRISPR grâce à une exploration systématique de 26 téraoctets de génomes et de métagénomes assemblés. Nous démontrons la capacité de nos modèles en générant 4,8 fois plus de groupes protéiques parmi les familles CRISPR–Cas que ceux observés dans la nature, ainsi qu’en concevant des séquences d’ARN guide unique pour des protéines effectrices du type Cas9. Certains des outils de modification génétique ainsi générés affichent une activité et une spécificité comparables ou supérieures à celles de SpCas9, l’effector prototype d’édition génétique, tout en étant distants de 400 mutations au niveau de la séquence. Enfin, nous montrons qu’un outil de modification génétique conçu par intelligence artificielle, désigné OpenCRISPR-1, est compatible avec l’édition de base. Nous mettons OpenCRISPR-1 à disposition pour favoriser son utilisation large et éthique dans les domaines de la recherche et des applications commerciales.