VenusFactory Protein Engineering Design-Plattform
1. Einführung in das Tutorial
Dieses Tutorial verwendet ein Beispielmodell und einen Beispieldatensatz und die Rechenressourcen bestehen aus einer einzelnen 4090-GPU. Wenn Sie ein größeres Modell oder einen größeren Datensatz trainieren müssen, verwenden Sie bitte eine Grafikkarte mit besserer Leistung.
Das Projekt wurde 2025 von einem gemeinsamen Team der Shanghai Jiao Tong University, des Shanghai Artificial Intelligence Laboratory und der East China University of Science and Technology entwickelt. Die relevanten Ergebnisse des Papiers sind „VenusFactory: Eine einheitliche Plattform für den Datenabruf im Protein-Engineering und die Feinabstimmung von Sprachmodellen".
VenusFactory ist eine einheitliche Plattform für die Protein-Engineering-Community, die die Abfrage biologischer Daten, standardisiertes Aufgaben-Benchmarking und die modulare Feinabstimmung vortrainierter Proteinsprachenmodelle (PLMs) integrieren soll. Die Plattform unterstützt die Ausführung über die Befehlszeile und eine codefreie Schnittstelle auf Gradio-Basis und integriert mehr als 40 proteinbezogene Datensätze und mehr als 40 gängige PLMs, sodass die Nutzung für Forscher in den Bereichen Informatik und Biologie einfach ist.
Dieses Lernprogramm bietet eine umfassende Demo-Startanleitung, um die Hauptfunktionen von VenusFactory schnell zu verstehen und Feinabstimmungen für Training, Auswertung und Vorhersage anhand eines Demo-Datensatzes zur Vorhersage der Proteinlöslichkeit vorzunehmen.

2. Bedienungsschritte
Alle Daten werden in /openbayes/home/VenusFactory gespeichert
1. Starten Sie den Container
Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen. Aufgrund des großen Modells dauert es etwa 1 Minute, bis die WebUI-Oberfläche angezeigt wird, andernfalls wird „Bad Gateway“ angezeigt.

2. Dokumentation verwenden
Klicken Sie auf „Manuell“ und wählen Sie eine Sprache aus, um ausführliche Anweisungen für jedes Modul anzuzeigen. Dieses Tutorial enthält vier Module: Training, Auswertung, Vorhersage und Download.

3. Kurze Anwendungsbeispiele
3.1 Schulung
Klicken Sie auf das Trainingsmodul, wählen Sie das Modell aus, das Sie im Protein Language Model trainieren möchten, und konfigurieren Sie die Trainingsdaten in der Dataset-Konfiguration

Wenn Sie Ihren eigenen Datensatz verwenden möchten, können Sie die Konfiguration „Benutzerdefinierten Datensatz verwenden“ verwenden. Geben Sie einfach den Pfad Ihres Datensatzes ein (weitere Einzelheiten finden Sie in der Handbuchdokumentation).

Legen Sie den Speicherpfad für das Trainingsmodell fest und klicken Sie auf „Start“, um mit dem Training zu beginnen

An dieser Stelle können Sie die Trainingsparameter und die Verlustkurve sehen

3.2 Auswertung
Klicken Sie auf das Modul „Auswertung“, konfigurieren Sie den durch das Training generierten Modellpfad und das trainierte Modell, verarbeiten Sie die Daten, passen Sie die Hyperparameter an und starten Sie die Auswertung

3.3 Vorhersage
Klicken Sie auf das Modul „Vorhersage“, konfigurieren Sie den durch das Training und das trainierte Modell generierten Modellpfad, geben Sie die Proteinsequenz ein, die Sie vorhersagen möchten, und klicken Sie auf „Vorhersagen“, um eine Vorhersage zu treffen.
Beispiel einer Proteinsequenz: MKTWFGHVLQ

3.4 Herunterladen
Klicken Sie auf das Download-Modul, um Proteindaten in dieser Schnittstelle herunterzuladen

3. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine AI4S-Austauschgruppe gegründet. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [AI4S], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓
