Plateforme De Conception D'ingénierie Des Protéines VenusFactory
1. Introduction au tutoriel
Ce didacticiel utilise un exemple de modèle et un ensemble de données, et les ressources de calcul sont un seul GPU 4090. Si vous devez entraîner un modèle ou un ensemble de données plus volumineux, veuillez utiliser une carte graphique offrant de meilleures performances.
Le projet a été développé par une équipe conjointe de l'Université Jiao Tong de Shanghai, du Laboratoire d'intelligence artificielle de Shanghai et de l'Université des sciences et technologies de Chine orientale en 2025. Les résultats pertinents de l'article sont "VenusFactory : une plateforme unifiée pour la récupération de données d'ingénierie des protéines et l'optimisation des modèles de langage".
VenusFactory est une plate-forme unifiée conçue pour la communauté de l'ingénierie des protéines qui vise à intégrer la récupération de données biologiques, l'analyse comparative des tâches standardisées et le réglage fin modulaire des modèles de langage protéique pré-entraînés (PLM). La plateforme prend en charge l'exécution en ligne de commande et une interface sans code basée sur Gradio, et intègre plus de 40 ensembles de données liés aux protéines et plus de 40 PLM populaires, ce qui la rend facile à utiliser pour les chercheurs en informatique et en biologie.
Ce didacticiel fournit un guide de démarrage de démonstration complet pour comprendre rapidement les principales fonctions de VenusFactory et effectuer une formation, une évaluation et une prédiction de réglage fin sur un ensemble de données de démonstration pour la prédiction de la solubilité des protéines.

2. Étapes de l'opération
Toutes les données sont stockées dans /openbayes/home/VenusFactory
1. Démarrez le conteneur
Après avoir démarré le conteneur, cliquez sur l’adresse API pour accéder à l’interface Web. En raison du grand modèle, il faut environ 1 minute pour afficher l'interface WebUI, sinon elle affichera « Bad Gateway »

2. Utiliser la documentation
Cliquez sur Manuel et sélectionnez une langue pour voir les instructions détaillées pour chaque module. Ce tutoriel contient quatre modules : Formation, Évaluation, Prédiction et Téléchargement.

3. Brefs exemples d'utilisation
3.1 Formation
Cliquez sur le module Formation, sélectionnez le modèle que vous souhaitez former dans le modèle de langage des protéines et configurez les données de formation dans la configuration du jeu de données.

Si vous souhaitez utiliser votre propre ensemble de données, vous pouvez utiliser la configuration Utiliser un ensemble de données personnalisé. Remplissez simplement le chemin de votre ensemble de données (voir la documentation du manuel pour plus de détails)

Définissez le chemin d'enregistrement du modèle de formation et cliquez sur Démarrer pour démarrer la formation

À ce stade, vous pouvez voir les paramètres d’entraînement et la courbe de perte

3.2 Évaluation
Cliquez sur le module Évaluation, configurez le chemin du modèle généré par la formation et le modèle formé, traitez les données, ajustez les hyperparamètres et démarrez l'évaluation

3.3 Prédiction
Cliquez sur le module Prédiction, configurez le chemin du modèle généré par la formation et le modèle formé, entrez la séquence protéique que vous souhaitez prédire et cliquez sur Prédire pour effectuer une prédiction.
Exemple de séquence protéique : MKTWFGHVLQ

3.4 Télécharger
Cliquez sur le module Télécharger pour télécharger les données sur les protéines dans cette interface

3. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange AI4S. Bienvenue amis pour scanner le code QR et commenter [AI4S] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
