ハーバード大学哲学部からタンパク質設計修士まで、David Baker 氏: AlphaFold のおかげでディープラーニングの力を深く認識できました

特色图像

タンパク質設計をリードする世界クラスのマスターは誰かということになると、ワシントン大学のデイビッド・ベイカー教授はこの分野のトップ専門家として、タンパク質分野で 700 以上の研究論文を発表しています。合計177,000以上の引用。今年10月、ベイカー氏はタンパク質設計への顕著な貢献が評価され、2024年のノーベル化学賞を受賞した。学術界における彼の影響力は明らかです。

しかし、ベイカーの影響力はそれをはるかに超えています。産業界でもその名はよく知られている。ワシントン大学タンパク質設計研究所の公式ウェブサイトによると、ベイカー氏が創設者として直接関与している企業は21社あるという。今年4月、同氏が共同設立したAI製薬会社ザイラ・セラピューティクスは、2022年ノーベル化学賞受賞者のキャロリン・ベルトッツィ氏を入社に誘い込んだだけでなく、10億ドルという巨額の資金調達を受け、世界ランキング1位となった。第2四半期の資金調達リスト。Sequoia CapitalやARCH Venture Partnersなどの投資コミュニティの巨人もこれを支持している。

デビッド・ベイカーは学界では世界中で有名であり、産業界でも並外れた功績を残した科学者ですが、彼の成長過程と成功の秘密は何ですか?

デビッド・ベイカー氏のノーベル賞を祝う
画像出典:タンパク質設計研究所

興味を起点に世界の力を結集して困難を乗り越える

デビッド・ベイカーは、1962 年 10 月 6 日に米国ワシントン州シアトルのユダヤ人の家庭に生まれました。しかし、ベイカーは当初、ハーバード大学で科学を専攻していました。しかし、今振り返ると「完全に時間の無駄で、無駄な会話も多かった」と思う。

大学の最終年に、ベイカーは発生生物学の選択コースを受講し、そこで魔法のような実験を目撃しました。タンパク質変性剤を添加した後、RNase は RNA を切断する活性を失いましたが、溶液中の変性剤が蒸発すると、RNA の活性も失われました。 RNaseは奇跡的に回復しました。タンパク質はどのようにして正しい立体構造を見つけ、瞬時に自律的に機能するのでしょうか?科学的な疑問に対する明確な答えの追求は、哲学の曖昧さよりも彼を興奮させました。そこで彼は古典的な教科書「細胞と分子生物学」を読み始め、生物学にますます魅了されました。

その後、ベイカーはノーベル生理学・医学賞受賞者ランディ・シェクマンの研究室に加わり、1989年にカリフォルニア大学バークレー校で生化学の博士号を取得した。

博士課程を卒業した後、ベイカーはカリフォルニア大学サンフランシスコ校のデビッド・アガード教授の研究室に入り、博士研究員としての研究を始めました。そこで彼は、コンピューターを使って結晶構造を解析しようとし、コンピューターを使ってタンパク質の構造を予測するというアイデアを思いつきました。「私がポスドクとして働いていた構造生物学の研究室には、結晶構造を解くための専用の部屋があり、皆がコンピューター端末に向かって忙しくしていました。私は 3 分間座って、それを試してみました。頭が割れそうなほどだったので、これでは無理だと気づき、コンピューターを使ってもっと意味のあることをしたいと思いました。」

この問題を念頭に置いて、ベイカー氏は 1993 年に故郷のシアトルのワシントン大学に戻り、アミノ酸配列に基づいてタンパク質の構造を予測できるソフトウェアの開発を開始しました。これが、後に人気を博した「ロゼッタ」となりました。さらに、ベイカー氏はワシントン大学の生化学教授である妻のハンネレ・ルオホラ・ベイカー氏にも会い、二人の間には息子と娘が一人いる。

ベイカー氏とハンネレ・ルオホラ・ベイカー氏(左)

1998 年にロゼッタが正式にリリースされました。ロゼッタは物理原理に基づいて、タンパク質の立体構造に対してエネルギー最小化計算を実行し、最も安定な三次元構造、つまり天然の状態に近いタンパク質の安定な立体構造を予測できます。タンパク質構造予測におけるロゼッタの性能を検証するために、Baker チームは CASP コンペティションに積極的に参加しました。このコンテストでは、参加者は、構造が実験的に解明されているもののまだ発表されていないタンパク質のバッチの構造を盲目的に予測することにより、さまざまなアルゴリズムの精度を評価します。それ以来、ロゼッタは CASP で徐々に頭角を現し、2004 年の CASP6 で歴史を作りました。標的タンパク質 T0281 について、ロゼッタは原子レベルに近い精度での非経験的なタンパク質構造予測を初めて達成し、一時はこの分野のリーダーとなりました。タンパク質の構造予測。

ロゼッタの住所:https://levitate.bio/rosetta

ただし、予測がより正確になると、コンピューティング リソースの消費量が増加します。 「タンパク質の構造予測を始めたとき、この作業には多くのコンピューティング リソースが必要であることがわかりました。私たちは新しいコンピューターを購入し続けましたが、コストがかかるだけでなく、すぐに設置するスペースが足りなくなってしまいました。そこで私たちはRosetta@homeプロジェクトを立ち上げ、世界中の人々が、余っているコンピューティング能力を利用してタンパク質の構造計算を行うよう招待されています。これは、コンピューターが計算を実行している間、画面上でタンパク質が折り畳まれている様子を表示するスクリーンセーバーです。 「ベイカーさんは言いました。

現在、Rosetta は学術および産業環境で広く採用されており、構造生物学および創薬の標準ツールとなっています。Rosetta ソフトウェアを継続的に改善するために、ベイカーはまた、学術コミュニティであるロゼッタ・コモンズを意図的に創設しました。このコミュニティには、化学、生物学、生理学、物理学、工学、数学、コンピューター サイエンスなどの多くの分野をカバーする世界中の 60 以上の機関からの学者が集まり、毎年、結果を共有し、相互にコミュニケーションするための会議を開催しています。 . そのアイデア、そして今日のロゼッタ・コモンズは大規模な国際コラボレーションです。

ロゼッタ@ホームのアドレス:https://boinc.bakerlab.org

ロゼッタ@ホーム

ロゼッタ@ホーム プロジェクトに触発されて、ベイカー氏は「人海戦略」の重要性を深く認識しました。未知の分野で迅速に画期的な進歩を遂げたい場合は、双方に利益をもたらす協力が長期的な解決策です。 2008 年、Baker のチームは、専門家と非専門家の両方が参加できるタンパク質の折り畳みに関するオンライン パズル ゲームである Foldit を正式に開始しました。 「私たちの夢は、世界中の人々が協力して科学と世界の健康に大きく貢献することです」とベイカー氏は語った。

フォルディットでは、プレイヤーはゲーム内のツールを使用して、選択したタンパク質構造を可能な限り完璧に折り畳むことができます。最も高いスコアを獲得したソリューションは、研究者によって分析されて現実への適用可能性が評価され、標的療法などに適用されます。 Foldit には 40 万人以上の参加者が集まり、一部のプレーヤーはベイカーの論文に寄稿者として掲載されたことも言及する価値があります。たとえば、2011 年に Nature 誌に掲載された論文では、Foldit プレーヤーは、15 年間科学者を悩ませてきた M-PMV レトロウイルス プロテアーゼの結晶構造の解明に貢献し、わずか 10 日間で十分に正確な 3D を構築しました。酵素のモデルは、分子置換とその後の構造決定を成功させるために開発されました。

フォルダイットのアドレス:https://fold.it

フォールディット 

それ以来、ロゼッタとフォルディットはタンパク質構造の分野で人気があり、この傾向が続けば、今年のノーベル化学賞の「タンパク質構造の予測への貢献」の残り半分がデミス・ハサビスに授与されなくなる可能性がある。そしてジョン・ジャンパー、すべてのターニングポイントは2020年末に起こりました。

AlphaFold2 にオープンソースで対応

2020 年 11 月に開催された第 14 回 CASP コンペティションでは、AlphaFold2 がその年のサイエンスのトップ 10 のブレークスルーの 1 つに「出現」しました。また、AlphaFold2 のタンパク質構造予測の精度は、Rosetta チームによってもたらされました。 「手の届かないところにある」。主催者は、AlphaFold 2 が 50 年間科学者を悩ませてきた問題の解決に成功したと直接発表しました。

初代AlphaFold2、2代目Rosetta

物理原理に基づいた手法に重点を置き、計算エネルギーの最小化を通じてタンパク質の構造を予測する Rosetta とは異なり、AlphaFold2 は深層学習と物理学、生物学、その他の関連分野の知識を組み合わせて、タンパク質の三次元構造情報のエンドツーエンドの予測を実現します。 。この結果は科学界に大きな衝撃を与え、タンパク質研究におけるマイルストーンとして歓迎されました。ただし、DeepMindは当時、AlphaFold2の具体的な詳細については明らかにしなかった。

この点に関して、ベイカー氏は「誰もがショックを受けた。最初は多くのメディア報道があったが、その後ニュースはなくなった。私たちの分野は大きな進歩を遂げたが、これを基礎にして発展を続けることはできない。これは」と語った。奇妙な。"

教師のランディ・シェックマンと同様に、ベイカー氏もオープンソースと科学の共有を提唱しており、当初、教師は 3 つの主要ジャーナルに対して「宣戦布告」することを選択しました。Baker 氏は、AlphaFold2 に匹敵するオープンソース モデルを開発することを決意しています。

※ランディ・シェックマンは科学文献へのオープンかつ自由なアクセスを主張し、Nature、Science、Cellなどのクローズドアクセスジャーナルを強く批判し、上記ジャーナルには決して論文を投稿しないと宣言している。

出典: ウィキペディア

AlphaFold2 を利用して、Baker と研究室の他のメンバーは数か月間協力して深層学習モデル RoseTTAFold をリリースしました。 RoseTTAFold は、タンパク質の配列パターン、アミノ酸相互作用、および可能な 1 次元、2 次元、および 3 次元の情報フローを同時に考慮できる独自の 3 トラック ニューラル ネットワーク アーキテクチャを使用しており、ニューラル ネットワークを実現します。タンパク質の化学組成とその折り畳み構造の関係を解明します。研究者らは、RoseTTAFold を使用して、ヒトゲノム内の多くの未知のタンパク質を含む数百の新しいタンパク質構造を計算し、炎症性疾患やがん細胞の増殖に関連するタンパク質など、人間の健康に直接関連するタンパク質も生成しました。

RoseTTAFold の計算エネルギー消費量と計算時間は AlphaFold2 よりも低いことは注目に値します。400 アミノ酸残基内のタンパク質構造をわずか 10 分で計算するには、RTX 2080 グラフィックス カードのみが必要です。研究者らは、「この種のソフトウェアを使用しなければ、科学者チームがタンパク質の構造を決定するのに数年かかる可能性がある」と述べ、ベイカー氏はRoseTTAFoldを公開する時期が来たと認識していたという。

RoseTTAFold オープンソースのアドレス:https://github.com/RosettaCommons/RoseTTAFold

2021 年 6 月、Baker は、RoseTTAFold の技術ルートを詳しく説明した印刷済みの文書をリリースしました。数日後、DeepMind CEOのDemis Hassabis氏はTwitterでAlphaFold2の論文とソースコードを公開すると発表した。同年7月15日、RoseTTAFoldとAlphaFold2の関連論文がそれぞれScience誌とNature Science誌に掲載され、RoseTTAFoldとAlphaFoldを2021年の画期的な技術として共同で指名した。アカデミアとビジネスの間のこのPKは、ついに完璧な終わりを迎えました。

画像出典: Demis Hassabis ソーシャル プラットフォーム

何か挑戦的なことをしてみよう!ディープラーニングをタンパク質設計に導入

今年のノーベル化学賞受賞のニュースが発表された後、関係者はベイカー氏に短い電話インタビューを実施し、RoseTTAFoldとAlphaFoldの競争関係をどのように見ているかとの質問に対し、ベイカー氏は自分とDeepMindが競争相手であると感じたことはないと述べた。

ベイカー氏、ノーベル賞受賞後にオンラインインタビューに応じる
出典: ワシントン大学タンパク質設計研究所

「私たちは長年、タンパク質の構造予測と設計のための物理学に基づいた手法を開発してきました。しかし、ジョンとデミスが AlphaFold2 を開発したとき、私はディープラーニングの力を深く実感しました。もちろん、彼らはディープラーニングの力に大きなインスピレーションを与えてくれました。」この力の助けを借りて、Baker 氏はディープラーニングをタンパク質の構造予測に使用し、RoseTTAFold を立ち上げただけでなく、タンパク質の設計にも使用しました。

ベイカー校の生徒、シェン・ハオさんは、先生が「革新して大きな一歩を踏み出す勇気を持っている」と信じており、新しいタンパク質の設計など、重要で挑戦的なことに集中している。ベイカー氏の見解では、人類は、寿命の延長や環境汚染などによって引き起こされる新たな病気など、多くの新たな差し迫った問題に直面している。自然の進化を待って問題を解決するには何百万年もかかるかもしれないが、タンパク質の設計を通じて、現在の問題を解決する新しいタンパク質が開発されます。

実際、ずっと前に、Baker のチームは、アミノ酸配列を Rosetta に入力してタンパク質の構造を予測できるので、ソフトウェアを逆に使用して、目的のタンパク質の構造を入力し、対応するアミノ酸配列の候補を取得できるのではないかと考えました。細菌が目的のタンパク質を生産できるようにするために、一連の遺伝子が細菌に導入されますか?

これに基づいて、2003 年、ベイカー氏のチームは世界初の新しいタンパク質、Top7 の設計に成功しました。この画期的な発見は、関連分野の研究に大きな影響を与えました。

同様に、タンパク質設計における深層学習の大きな可能性を認識した後、Baker 氏はまた、深層学習を逆に使用して、機能的な新しいタンパク質を設計するためのアミノ酸配列を生成できるだろうかと考え始めました。このトピックに焦点を当て、彼はチームを率いて一連の成果を生み出しました。

Baker 氏はかつて、「RF 拡散によるタンパク質の構造と機能のデノボ設計」というタイトルの論文を Nature 誌に発表しました。研究者らは、タンパク質構造ノイズ除去タスクで RoseTTAFold 構造予測ネットワークを微調整しました。生成モデルRFdiffusionが開発され、このモデルは、タンパク質結合剤の設計、酵素活性部位の足場設計などにおいて優れたパフォーマンスを発揮します。さらに重要なのは、このモデルが優れた汎用性を持ち、オープンソースであることです。

RF普及プロジェクトのアドレス:https://github.com/RosettaCommons/RFdiffusion

同時に、RF拡散の可能性を拡張するために、Baker は、深層学習に基づいたタンパク質配列設計手法である ProteinMPNN も開発しました。ProteinMPNN はタンパク質構造を入力として受け取り、1 秒で対応するバックボーンに折り畳むことができる新しいアミノ酸配列を生成します。 RFdiffusion などの構造生成ツールと組み合わせることで、これまでに見たことのない配列、構造、機能を持つタンパク質を設計することができます。さらに、研究では、天然タンパク質骨格では、ProteinMPNN の配列回復率が 52.4% であるのに対し、Rosetta に基づく過去の物理設計はわずか 32.9% であったことも示しています。この研究は「ProteinMPNN を使用した堅牢な深層学習ベースのタンパク質配列設計」と題され、Science 誌に受理されました。

ProteinMPNN プロジェクトのアドレス:https://github.com/dauparas/ProteinMPNN

さらに、Baker のチームは、前述の構造予測ツール Rosetta と Foldit も最適化しました。新しいモジュールとアルゴリズムをソフトウェアに導入することにより、この 2 つはタンパク質の構造予測に限定されず、抗体設計、酵素設計、低分子ドッキングにも拡張されます。この点に関してベイカー氏は、「Folditはもともとタンパク質の構造予測のために作られたが、現在はタンパク質の設計に移行している。今後もプレイヤー向けのレベルを更新し続けるし、研究対象の変化に応じてそれも変化し続けるだろう」と述べた。

ベイカー氏の研究グループの写真

AI テクノロジーと物理的手法を組み合わせて、ベイカーの研究室は多くの新しいタンパク質を作成してきました。例としては、ウイルスを中和したり、がん細胞を標的にしたり、さらには化学反応の触媒として機能するタンパク質などがあります。さらに、Baker 氏は無機材料に結合できるタンパク質の設計も行っており、無機結晶の成長を制御するためにタンパク質を使用する可能性を模索しており、この研究は半導体製造などの分野への応用が期待されています。

会社設立による技術導入の推進

ベイカー氏の教師であるデビッド・アガード氏はかつて、「デビッド・ベイカー氏の研究は、ほぼ独力でタンパク質設計分野の発展を促進した。」とコメントした。実際、2024年が終わるまでに、ベイカー氏は110本以上の論文を発表しており、これらの成果は非常に驚くべきものである。しかし、さらに驚くべきことは、ベイカー氏が研究しているテクノロジーが基本的に成熟していると考えるたびに、新しい会社を設立したり、過去に設立した企業に投資してインキュベートすることで、テクノロジーの産業化を促進することです。ワシントン大学タンパク質設計研究所の公式ウェブサイトによると、ベイカー氏は創業者として21社に直接関わっているほか、コンサルタントとして他の企業の経営にも携わっている。

出典: ワシントン大学タンパク質設計研究所
David Baker は創設者/共同創設者/科学共同創設者です

具体的には、今年4月に設立されたばかりのXaira Therapeutics社が、前述のRFdiffusionとProteinMPNNを応用している。同社は、新興 AI テクノロジーを活用した医薬品の再設計と開発に注力しており、スタンフォード大学の元学長であるマーク・テシエ・ラヴィーン博士が CEO を務めており、Baker 氏は共同創設者です。注目すべきことに、ベイカー研究室の数人の科学者もザイラにフルタイムで加わっている。

Xaira は、ヒトの病気に関連する分子や生物学的特性に関する膨大なデータを統合することで、高品質でモデルをトレーニングできます。さらに、同社は、研究室で特定の細胞標的へのタンパク質の接着の程度をテストし、安定性などの重要な特性を評価できる工業用の湿式および乾式実験プラットフォームも確立しました。得られたデータはタンパク質モデルにすぐにフィードバックされ、分子設計の次の反復が可能になります。

ザイラ公式サイト:https://xaira.com

2023 年に設立された Archon Biosciences は、生成 AI による新しいタイプのバイオ医薬品、抗体ケージ (AbC) の設計に取り組んでいます。AbC は、AI 設計と構造制御を統合して、抗体の配向、結合ドメインの価数、サイズ、形状、剛性を完全に制御します。この構造制御により、細胞上での正確な生体内分布とターゲットの結合が可能になり、内部の臨床データと組み合わせることで、抗体の有効性を迅速に検証できます。同社はエヌビディアやその他の企業の支援を受けており、2024年のノーベル化学賞で認められたベイカー氏の研究から派生した技術を使用している。

アルコン公式サイト:https://www.archon.bio

ベイカー氏がタンパク質ナノケージを実証

さらに、Monod Bio は今年 7 月に、ライフサイエンスの研究および診断向けに世界初の完全にデノボのタンパク質製品であるルシフェラーゼ LuxSit™ Pro を発売しました。これに関してベイカー氏は、「これは生物学とコンピューターサイエンスにおける重要なマイルストーンだ。今後数か月または数年のうちに、より多くの新たに設計されたタンパク質が成熟した商用製品に変換されるのを目にすることになるだろう」と述べた。論文は2023年にBakerによってNature誌に掲載されました。

また、2009年に設立されたArzeda社、2014年に設立されたCyrus Biotech社、2018年に設立されたA-Alpha Bio社などの企業もあり、Baker社が開発した最新のAI技術を積極的に導入しており、より多くの新しいタンパク質の開発に期待している。薬、ワクチン、病気の治療法、さらには新素材まで。

アルゼダ公式サイト:https://arzeda.com/
サイラス・バイオテック公式ウェブサイト:https://cyrusbio.com/
エーアルファバイオ公式サイト:https://www.aalphabio.com/

最初の哲学的探求から現在のタンパク質設計の「魔術師」に至るまで、ベイカー氏のあらゆるステップは未知への欲求と革新への粘り強さに満ちています。彼は常にWin-Winの協力が長期的な解決策であると主張し、オープン性と分かち合いの精神を用いて、世界中の無数の研究者や科学愛好家にこの分野の発展に専念するよう促してきました。彼の研究成果は学術界に大きな進歩をもたらしただけでなく、研究室から産業界に移り、病気の治療、食品生産、材料科学などの多くの分野に力を与え、人類の生活により多くの可能性をもたらしました。

参考文献:
1.https://news.bioon.com/article/9068e156469f.html
2.https://news.qq.com/rain/a/20241010A02IB300
3.https://zh.wikipedia.org/zh-cn/Rosetta@home
4.https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/
5.https://news.qq.com/rain/a/20241010A04VNA00
6.https://m.thepaper.cn/newsDetail_forward_28994096
7.https://www.nobelprize.org/prizes/chemistry/2024/baker/interview/
8.https://finance.sina.com.cn/tech/roll/2024-10-10/doc-incsarnm2004532.shtml
9.https://news.qq.com/rain/a/20241011A02XB000