HyperAI超神経

VenusFactory タンパク質工学設計プラットフォーム

1. チュートリアルの概要

このチュートリアルではサンプル モデルとデータセットを使用し、コンピューティング リソースは単一の 4090 GPU です。より大きなモデルまたはデータセットをトレーニングする必要がある場合は、パフォーマンスの優れたグラフィック カードを使用してください。

このプロジェクトは、上海交通大学、上海人工知能研究所、華東科技大学の共同チームによって2025年に開発されました。関連する論文の結果は次のとおりです。VenusFactory: タンパク質工学データの取得と言語モデルの微調整のための統合プラットフォーム”。

VenusFactory は、生物学的データの取得、標準化されたタスクのベンチマーク、事前トレーニング済みのタンパク質言語モデル (PLM) のモジュール式の微調整を統合することを目的とした、タンパク質エンジニアリング コミュニティ向けに設計された統合プラットフォームです。このプラットフォームは、コマンドライン実行と Gradio ベースのコードフリー インターフェースをサポートし、40 を超えるタンパク質関連データセットと 40 を超える一般的な PLM を統合しているため、コンピューター サイエンスや生物学の研究者が簡単に使用できます。

このチュートリアルでは、VenusFactory の主な機能をすぐに理解し、タンパク質溶解度予測のためのデモ データセットで微調整のトレーニング、評価、予測を実行するための包括的なデモ スタートアップ ガイドを提供します。

2. 操作手順

すべてのデータは/openbayes/home/VenusFactoryに保存されます

1. コンテナを起動します

コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります。モデルが大きいため、WebUI インターフェースの表示には約 1 分かかります。それ以外の場合は、「Bad Gateway」と表示されます。

2. ドキュメントの使用

「マニュアル」をクリックして言語を選択すると、各モジュールの詳細な手順が表示されます。このチュートリアルには、トレーニング、評価、予測、ダウンロードの 4 つのモジュールが含まれています。

3. 簡単な使用例

3.1 トレーニング

トレーニングモジュールをクリックし、タンパク質言語モデルでトレーニングするモデルを選択し、データセット構成でトレーニングデータを設定します。

独自のデータセットを使用する場合は、「カスタム データセットの使用」構成を使用できます。データセットのパスを入力するだけです(詳細についてはマニュアルを参照してください)

トレーニングモデルの保存パスを設定し、[開始] をクリックしてトレーニングを開始します。

この時点で、トレーニングパラメータと損失曲線を見ることができます。

3.2 評価

評価モジュールをクリックし、トレーニングによって生成されたモデルパスとトレーニング済みモデルを設定し、データを処理し、ハイパーパラメータを調整して評価を開始します。

3.3 予測

予測モジュールをクリックし、トレーニングによって生成されたモデルパスとトレーニング済みモデルを構成し、予測するタンパク質配列を入力して、「予測」をクリックして予測を行います。

タンパク質配列の例: MKTWFGHVLQ

3.4 ダウンロード

このインターフェースでタンパク質データをダウンロードするには、ダウンロードモジュールをクリックします。

3. 議論

🖌️ 質の高いプロジェクトを見つけたら、ぜひバックグラウンドでメッセージを残して推薦してください!また、AI4S交流グループも設立しました。友人はQRコードをスキャンして[AI4S]とコメントし、グループに参加してさまざまな技術的な問題について話し合い、アプリケーションの結果を共有してください↓