Command Palette

Search for a command to run...

ワンストップのタンパク質ゼロショット変異予測・機能予測、フルスタック開発を可能にするタンパク質エンジニアリングワークベンチVenusFactory

Featured Image

AIによる設計効率の大幅な向上は、タンパク質設計における従来の研究パラダイムを変革しつつあります。従来のタンパク質設計実験と比較して、大規模なAIモデルは、タンパク質の配列、構造、機能を非常に短時間で予測・スクリーニングできるだけでなく、物理的・化学的原理とデータパターンに基づいて、自然界には存在しない新規タンパク質を設計することも可能です。さらに、マルチタスク学習とディープラーニングモデルを駆使することで、安定性、結合親和性、速度論といったタンパク質特性を同時に予測することも可能です。

しかし、モデルの複雑な計算フレームワークと膨大なタンパク質データベースにより、AI ツールの使用ハードルが高まります。一方で、タンパク質設計分野は生物学的データに依存しているため、研究者は複数のデータベースからデータを取得、ダウンロード、コンパイル、変換する必要があり、膨大な時間がかかります。一方、タンパク質AIモデルは現状、ニッチな分野の個々のタスクしか解決できず、信頼できるベンチマークデータを用いた評価システムが不足しています。

また、AIによるタンパク質設計の課題について、上海交通大学のホン・リャン教授の研究グループのタン・ヤン博士も、タンパク質設計分野の既存のAIモデルは、データの取得やフォーマットの統一が難しいだけでなく、パラメータの調整が難しく、トレーニング速度が遅いなどの問題があると紹介した。「データの障壁、モデルの障壁、アプリケーションの障壁」によって引き起こされる障害は、より広範な科学研究コミュニティにおける AI ツールの普及と応用を妨げてきました。

一方、既存のソリューションに関して言えば、ウェブサーバーはシンプルで使いやすいものの、機能が限られており、個々のデータに基づいて学習できず、インテリジェンスも限られています。エージェントは人間の介入を減らし、結果目標に直接焦点を当て、1つまたは複数の作業単位を自律的に完了することができます。

タンパク質工学分野における人工知能の広範な応用を促進するために、上海交通大学のHong Liang教授の研究グループは、ワンストップのオープンソースタンパク質工学ワークベンチ「VenusFactory」を開発しました。このプラットフォームは、生物学的データ検索、標準化されたタスクベンチマーク、事前学習済みのタンパク質言語モデル(PLM)を統合しています。このプラットフォームは、Webサーバーとエージェントの2つの機能を組み合わせています。

* プライベート データセットを使用して AI モデルの 0 コード カスタマイズを実装し、コマンド ライン実行と Gradio ベースのコードレス インターフェイスをサポートします。

* 30 を超える大規模なモデル評価ベンチマーク データセットのオープンソース ダウンロードを提供し、40 を超えるタンパク質関連のデータセットと 40 を超える一般的な PLM を統合し、タンパク質データに簡単にリンクします。

* ゼロサンプルの変異予測を実現し、AI モデルを自動的に組み合わせて需要に基づいて変異を推奨し、教師あり予測モジュールを組み込んでターゲット統合 AI モデルを通じて特性を予測することができます。

現在のところ、VenusFactory タンパク質エンジニアリング設計プラットフォームが、HyperAI の公式 Web サイト (hyper.ai) のチュートリアル セクションで公開されました。 VenusFactory プラットフォーム チュートリアルでは 7 つの機能モジュールをカバーしており、ワンクリック デプロイメントでオンラインで体験できます。

* トレーニング: ゼロコード モデル トレーニング、40 を超える大規模モデルをサポートし、プライベート データセットを使用して独自のモデルをトレーニングします。

* 評価: タンパク質モデルの包括的なパフォーマンス評価のための使いやすいツール。

* 予測: トレーニング済みのモデルを使用して、新しいタンパク質配列の機能を予測します。

* クイック ツール: ゼロ サンプルの突然変異予測 (指向性進化) と教師あり予測 (機能またはプロパティの予測) をサポートする、使いやすいバージョンです。

* 高度なツール: ゼロサンプル突然変異予測 (指向性進化) と教師あり予測 (機能またはプロパティの予測) をサポートする高度なカスタマイズ バージョン。

* ダウンロード: タンパク質データに簡単にリンクし、主要な主流データベース (RCSB、UniProt など) のマルチスレッド ダウンロードをサポートします。

* VenusAgent: DeepSeek と連携して AI によるタンパク質計算を可能にするタンパク質エンジニアリング エージェント。

チュートリアルのリンク:

https://go.hyper.ai/CjuQg

さらに、新規ユーザー向けにサプライズコンピューティングリソース特典もご用意しました。招待コード「VenusFactory」で登録すると、デュアルSIM A6000の使用時間を2時間獲得できます(リソースの有効期間は1か月です)。数量限定ですのでお見逃しなく!

デモの実行

1. ブラウザにhyper.aiのURLを入力します。ホームページにアクセスしたら、「チュートリアル」ページをクリックし、「VenusFactory Protein Engineering Platform」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. NVIDIA GeForce RTX 4090-2とPyTorchのイメージを選択し、「続行」をクリックします。OpenBayesプラットフォームでは、従量課金制、日単位/週単位/月単位の4つの課金オプションをご用意しています。新規ユーザーは、以下の招待リンクから登録すると、RTX 4090を4時間分、CPU時間を5時間分無料でご利用いただけます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースが割り当てられるのを待ちます。最初のクローン作成プロセスには約2分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にある矢印をクリックしてデモページに移動します。モデルが大きいため、WebUI インターフェースが表示されるまでに 3 分ほどかかります。表示されない場合は、「Bad Gateway」と表示されます。APIアドレスアクセス機能を利用するには実名認証が必要となりますのでご注意ください。

効果実証

以下はVenusFactoryの使い方ページです。「マニュアル」をクリックすると、トレーニングモジュール、予測モジュール、評価モジュール、ダウンロードモジュールの使い方ガイドを直接ご覧いただけます。

トレーニングモジュールの表示

「モデルのトレーニングと予測のトレーニング」モジュールの「トレーニング」モジュールをクリックします。

* タンパク質言語モデルを選択

* データセットの選択

* データセットのプレビュー

* トレーニング方法の設定(具体的な情報についてはユーザーガイドを参照してください)

* バッチ設定(詳細はユーザーガイドを参照)

トレーニング モデルの保存パスを設定し、「トレーニングを開始」をクリックしてトレーニングを開始します。

この時点で、トレーニング パラメータと損失曲線を確認できます。

独自のデータセットを使用する場合は、カスタムデータセット設定を使用できます。データセットのパスを入力するだけです(詳細はマニュアルのドキュメントをご覧ください)。

評価モジュールディスプレイ

「モデルのトレーニングと予測のトレーニング」モジュールの「評価」モジュールをクリックします。

バッチ処理を設定し、「評価を開始」をクリックしてトレーニングを開始します。

評価結果は以下のとおりで、CSV ファイルをダウンロードできます。

独自のデータセットを使用する場合は、カスタムデータセット設定を使用できます。データセットのパスを入力するだけです(詳細はマニュアルのドキュメントをご覧ください)。

予測モジュールの表示

「モデルトレインと予測トレーニング」モジュールの「予測」モジュールをクリックし、トレーニングモデルの保存パスを設定し、タンパク質言語モデルを選択して、「予測を開始」をクリックしてトレーニングを開始します。

単一シーケンス予測を例に挙げます。

タンパク質配列の例: MKTWFGHVLQ

VenusAgentショーケース

VenusAgent モジュールをクリックします。

VenusAgent は DeepSeek の大規模モデルを必要とするため、このチュートリアルでは 2 つの呼び出し方法を提供します。API キーを自分で入力するか、プラットフォームにデプロイされている DeepSeek-R1-70B モデルを使用する方法です。必要な機能に応じて、異なるグラフィックカードエクスペリエンスを選択できます。カードの選択手順は次のとおりです。

* 単一の RTX 4090 グラフィック カードを使用する場合、VenusAgent 機能はローカルに展開された大規模モデル サービスの使用をサポートしません (DeepSeek API キーの使用は無制限です)。

※デュアルRTX 4090グラフィックカードをご使用の場合、VenusAgent機能使用後、すぐに(1~2分後)他の機能が使用できなくなります(DeepSeek APIキー使用時は制限はありません)。

* デュアル RTX A6000 グラフィック カードを使用する場合、VenusAgent の機能は無制限になります。

* ユーザーはDeepSeek APIキーを入力できます。入力しない場合は、チュートリアルでローカルにデプロイされた大規模モデルサービスがデフォルトで使用されます。ローカルの大規模モデルサービスを使用する場合、最初の会話の応答時間は約2~3分です。しばらくお待ちください。

上記は「VenusFactory タンパク質工学設計プラットフォーム」の使い方を詳しく説明したチュートリアルです。ぜひ皆様も体験してみてください!

チュートリアルのリンク:

https://go.hyper.ai/CjuQg

2023年から2024年にかけてのAI4S分野の高品質な論文と詳細な解釈記事をワンクリックで入手⬇️