HyperAI超神経

アカデミックシェアリング|データ不足を恐れない!上海交通大学博士研究員のZhou Ziyi氏は、タンパク質言語モデルの小サンプル学習法FSFPについて詳しく説明した。

特色图像

事前トレーニングされたタンパク質言語モデル (PLM) は、教師なしの方法で何百万ものタンパク質のアミノ酸配列の分布特性を学習することができ、タンパク質配列とその機能の間の暗黙の関係を明らかにする上で大きな可能性を示しています。

これに関連して、上海交通大学自然科学研究所/物理天文学部/張江高等研究院/薬学部のホン・リャン教授の研究グループと、上海人工知能の若手研究者タン・パン氏の研究グループは、研究室、タンパク質言語モデルの小サンプル学習方法が開発されました。これにより、非常に少ないウェット実験データを使用して、従来のタンパク質言語モデルの突然変異効果予測パフォーマンスを大幅に向上させることができます。実用化において大きな可能性を示します。

ライブ ブロードキャスト「Meet AI4S」シリーズの第 3 回エピソードで、HyperAI は幸運なことに、研究論文の筆頭著者である上海交通大学自然科学研究所および上海国立応用センターの博士研究員、周子儀氏を招待することができました。数学。 9 月 25 日、Zhou Ziyi 博士は、オンライン ライブ ブロードキャストの形でタンパク質言語モデルの小規模サンプル学習方法をさらに共有し、AI によって支援された指向性進化の新しいアイデアを探求します。

クリックしてライブブロードキャストをスケジュールします:

https://hdxu.cn/6Bjom

QRコードを読み取って「AI4S」とメモしてディスカッショングループに参加してください↓

イベント詳細

トピックを共有する

タンパク質言語モデルの小サンプル学習法

内容紹介

タンパク質言語モデル (PLM) はタンパク質の機能予測に画期的な進歩をもたらしましたが、多くの場合、高精度を達成するには大量の実験データによる微調整が必要です。この記事では、わずか数十のトレーニング サンプルを使用して PLM の突然変異効果予測パフォーマンスを大幅に向上できる、PLM の小規模サンプル学習方法を紹介します。

論文レビュー

HyperAI は以前、第一著者である Zhou Ziyi 博士による研究論文「少数ショット学習による最小限のウェットラボ データによるタンパク質言語モデルの効率の向上」を解釈して共有しました。

クリックして詳細レポートを表示: 20 の実験データが AI タンパク質のマイルストーンを作成!上海交通大学と上海AIラボはタンパク質の事前トレーニングモデルを効果的に最適化するFSFPをリリース

FSFP メソッドは 3 つの段階で構成されます

メタトレーニング用の補助タスクを構築し、補助タスクで PLM をトレーニングし (補助タスクで PLM をメタトレーニング)、 LTR を介して PLM をターゲット タスクに転送します。

その中で、FSFP は ListMLE 損失を使用して、突然変異の適合性をランク付けすることを学習します。各トレーニング反復では、PLM のトレーニング サンプルの予測配置が、実際の配置に向けて修正されます。このランキング学習手法は、メタトレーニング段階の内部最適化段階と転移学習段階で同時に適用されます。

データセットの取得

この研究では、ベンチマーク データ セットとしてタンパク質変異データ セット (ProteinGym) を選択しました。データセットには、87 回の DMS シーケンス実験から得られた合計約 150 万個のミスセンス バリアントが含まれています。

ProteinGym タンパク質変異データセットのダウンロード アドレス:
https://go.hyper.ai/6GvFD

FSFP法の評価

* 平均パフォーマンスの点では、FSFP でトレーニングされた PLM は、すべてのトレーニング データ サイズにわたって他のベースラインを常に上回っています。

* 外挿パフォーマンス評価の点では、FSFP でトレーニングされた PLM のスピアマン相関評価の方が優れています。

* FSFP を使用して Phi29 DNA ポリメラーゼを操作することに成功し、陽性率が大幅に増加しました。

視聴者収入:

1. PLM の基本原理とタンパク質工学におけるその応用を理解する

2. PLM の基本原理とタンパク質工学におけるその応用を理解する

3. AI を活用した方向性のある進化のための新しいアイデアを模索する

上海交通大学のホン・リャン研究グループ

上海交通大学のホン・リャン氏の研究グループは、上海交通大学自然科学院に所属している。研究グループの研究の方向性は主に AI タンパク質と薬剤の設計、分子生物物理学であり、具体的には以下が含まれます。

* 人工知能技術に基づくタンパク質の直接修飾、酵素工学の直接進化、および創薬支援。

* 中性子散乱、放射光、単一分子蛍光、分子動力学シミュレーションおよび人工知能アルゴリズムなどの国立科学施設。生体高分子の動態、凍結保存技術および生体高分子の原理を研究します。

この研究グループは多大な研究成果を上げており、これまでに合計77本の研究論文を発表しており、その多くはNature誌に掲載されています。

AI4S ライブ シリーズを紹介します

HyperAI (hyper.ai) は、データサイエンス分野における中国最大の検索エンジンであり、AI for Science の最新の科学研究成果に焦点を当て、Nature や Science などのトップジャーナルの学術論文をリアルタイムで追跡しています。これまでに 100 件を超える AI for Science 論文の解釈を行っています。

さらに、中国で唯一の AI for Science オープンソース プロジェクト awesome-ai4s も運営しています。

プロジェクトアドレス:

https://github.com/hyperai/awesome-ai4s

AI4S の普遍化をさらに促進し、学術機関の科学研究成果の普及障壁をさらに引き下げ、より幅広い業界の研究者、技術愛好家、産業界と共有するために、HyperAI は「Meet AI4S」ビデオ コラムを企画しました。 AI に深く関わっている人々を招待し、科学研究分野の研究者や関連部門を招待し、研究結果や方法論的アイデアをビデオの形式で共有し、科学研究の進歩の過程で AI 科学が直面する機会と課題について共同で議論します。 AI for Science の科学的普及と普及を促進します。

高効率の研究グループや研究機関は、ライブブロードキャストに参加することを歓迎します。 QRコードをスキャンして「Neural Star」WeChatを追加すると詳細がご覧いただけます↓