Prot42 : une nouvelle famille de modèles de langage protéique pour la génération de ligands protéiques ciblés

La mise au point de la prochaine génération de biotechnologie et d'innovation thérapeutique nécessite de surmonter la complexité inhérente et l'intensité des ressources des méthodes conventionnelles d'ingénierie protéique. Les techniques computationnelles récentes alimentées par l'intelligence artificielle générative (GenAI) reposent souvent sur la disponibilité des structures 3D et des sites de liaison spécifiques de la protéine cible pour générer des liaisons à haute affinité, contraintes observées dans des modèles tels qu'AlphaProteo et RFdiffusion. Dans cette étude, nous explorons l'utilisation de Modèles Linguistiques Protéiques (pLMs) pour la génération de liaisons à haute affinité. Nous présentons Prot42, une nouvelle famille de Modèles Linguistiques Protéiques (pLMs) pré-entraînés sur d'importantes quantités de séquences protéiques non étiquetées. En capturant des informations profondes sur l'évolution, la structure et la fonction grâce à une architecture auto-régulatrice avancée ne comprenant que le décodeur, inspirée par les avancées en traitement du langage naturel, Prot42 élargit considérablement les capacités du design computationnel des protéines basé uniquement sur le langage. Notamment, nos modèles gèrent des séquences allant jusqu'à 8 192 acides aminés, dépassant largement les limites standards et permettant une modélisation précise des grandes protéines et des séquences complexes multicatégorielles. En démontrant des applications pratiques puissantes, Prot42 excelle dans la génération de liaisons protéiques à haute affinité et de protéines liantes spécifiques à l'ADN. Nos modèles innovants sont disponibles au public, offrant à la communauté scientifique un outil computationnel efficace et précis pour une ingénierie rapide des protéines.