AMix-1 : Une voie vers un modèle fondamental de protéine évolutif à l'heure du test

Nous présentons AMix-1, un modèle fondamental puissant pour les protéines, construit sur des réseaux bayésiens à flux et renforcé par une méthodologie d’entraînement systématique comprenant des lois d’échelle d’entraînement préalable, une analyse des capacités émergentes, un mécanisme d’apprentissage in-context et un algorithme d’échelle au moment du test. Afin de garantir une scalabilité robuste, nous établissons une loi d’échelle prédictive et mettons en évidence l’émergence progressive de la compréhension structurale à travers une perspective basée sur la perte, aboutissant à un modèle de 1,7 milliard de paramètres. Sur cette base, nous proposons une stratégie d’apprentissage in-context fondée sur l’alignement multiple de séquences (MSA), permettant d’unifier la conception de protéines dans un cadre général : AMix-1 parvient à identifier des signaux évolutifs profonds au sein des alignements MSA et génère de manière cohérente, à la fois sur le plan structural et fonctionnel, des protéines de haute qualité. Ce cadre permet la conception réussie d’une variante améliorée d’AmeR, dont l’activité est augmentée jusqu’à 50 fois par rapport à la forme sauvage. En poussant les limites de l’ingénierie protéique, nous dotons AMix-1 d’un algorithme d’échelle au moment du test inspiré de l’évolution, permettant une évolution dirigée in silico qui offre des gains de performance substantiels et évolutifs à mesure que le budget de vérification augmente, posant ainsi les fondations pour une nouvelle génération de conception de protéines intégrant un cycle laboratoire-informatique.