Prédiction de la localisation sous-cellulaire des protéines dans les cellules uniques

La localisation sous-cellulaire d'une protéine est cruciale pour son fonctionnement, et sa mauvaise localisation est associée à de nombreuses maladies. Les jeux de données existants capturent un nombre limité de paires de protéines et de lignées cellulaires, et les modèles actuels de prédiction de la localisation des protéines manquent soit de spécificité cellulaire, soit ne peuvent pas généraliser aux protéines non observées. Nous présentons ici une méthode pour la Prédiction de la Localisation Sous-cellulaire des Protéines Non Observées (PUPS). PUPS combine un modèle linguistique de protéine et un modèle d'inférence d'image pour exploiter à la fois la séquence des protéines et les images cellulaires. Nous démontrons que l'entrée par séquence de protéine permet une généralisation aux protéines non observées, tandis que l'entrée par image cellulaire capture la variabilité au niveau cellulaire unique, permettant ainsi des prédictions spécifiques à chaque type cellulaire. La validation expérimentale montre que PUPS peut prédire la localisation des protéines dans des expériences réalisées récemment en dehors de l'Atlas Protéomique Humain utilisé pour l'entraînement. Dans l'ensemble, PUPS fournit un cadre pour prédire la localisation différentielle des protéines entre les lignées cellulaires et au sein d'une même lignée cellulaire, y compris les changements dans la localisation des protéines induits par des mutations.