HyperAI超神経

CASP、五大戦におけるタンパク質構造予測の風見鶏、南開大学の鄭偉氏:実用的な生物学的問題に焦点を当て、競争力と難易度の向上

特色图像

「CASP14 コンペティションの前に、多くの研究グループが DeepMind の参加を見て、彼らがもたらした結果は前回 (CASP13) と似ているかもしれないと感じていましたが、誰もそれをあまり真剣に受け止めませんでした。」南開大学の鄭偉教授は、ミシガン大学の張楊教授の研究室で勉強していました。彼はこのチームで 3 回出場し、第一世代の AlphaFold の登場と AlphaFold 2 の名声の高まりを目撃しました。

「素人は興奮だけを見て、専門家は扉を見る」という言葉があるように、メディアが圧倒的に AlphaFold の勝利を宣伝していたとき、CASP13 でそれに競い合った参加者は外の世界ほど驚きも熱狂もしていませんでした。 Zheng Wei 氏は、当時の AlphaFold はまだ「距離予測」の枠組みから抜け出せていないと回想しました。「これをやれば、数カ月以内にアルファフォールドを追い越せるかもしれない」という意見には誰もが同意した。一方で、業界は短期的に手法を革新するのは難しく、「ボトルネック期」に入っているとも感じています。

このため、当初は誰もが CASP14 での DeepMind のパフォーマンスに大きな期待を持っていませんでした。

2020 年 11 月の最終日に、CASP14 とそのチームがサーバー グループ コンテストで 1 位を獲得したと結果が発表され、組織委員会が結果を通知したとき、別の考えさせられるニュースももたらされました。「あるグループのパフォーマンスは素晴らしかった。他のチームとは大きく異なり、他の参加チームをはるかに上回っていた。」彼は、DeepMind が「何か大きなことを起こした」かもしれないことにすぐに気づきました。

結果は言うまでもなく、AlphaFold 2 は優れています。 「これには本当に驚きました。彼らは本当に良い仕事をしました。AlphaFold 2 は学術研究グループの過去の質の高い結果と経験をうまく統合し、モデルのトレーニングにさらに多くのエネルギーを注ぎました。」と当時 Zheng Wei 氏らは分析しました。 、最適なソリューションを見つけました。AlphaFold 2 のパフォーマンスは本当に目を見張るものがあります。」

続く CASP15 は、「ポスト AlphaFold 2 時代」の重量級大会と呼ばれ、タンパク質構造予測を革新する AI の普及に伴い、参加チーム数も大幅に増加し、基礎研究から研究まで幅広く注目を集めました。応用研究、学術研究から学術研究へ、世界から産業界まで、誰もがさらなる驚きを期待しています。Zheng Wei 氏は今回で CASP に参加するのが 4 回目となり、構造最適化から構造予測への変革を経験し、豊富な経験を蓄積してきました。より熾烈な競争の中で、彼が開発した DI-TASSER アルゴリズムと DMFold-Multimer アルゴリズムは、さまざまなコンテストで複数のチャンピオンを獲得しました。

CASP15では、鄭偉教授のチームの予測結果が
AlphaFold 2の予測結果と実験構造(実際の構造)の比較

時は2024年になり、CASP16は予定通り到着 南海大学に戻り、再びチームを率いて試合に臨んだ。参加するトラックや競技の範囲が広がり、AlphaFold 3 のオープンソース リリースと重なったにもかかわらず、彼は依然として「自分のルーツにこだわる」ことを選択し、多くのトラックでトップに立った。

結果の発表後、HyperAI は Zheng Wei 教授に詳細なインタビューを行う機会に恵まれ、ベンチマーク的な意味を持つこの国際競争を通じて、彼は現在の業界の発展傾向を分析し、彼の意見に基づいて科学のための AI を要約するのに協力してくれました。研究者の成長の軌跡。

また、1月15日19:00には鄭偉教授も講演します。その結果は、オンラインライブブロードキャストの形で詳しく共有されます - 深層学習に基づく生体高分子の三次元構造予測とその相互作用 視聴予約を歓迎します。

最適化から予測までの CASP 入門

鄭偉は、南開大学を卒業し、学士号、修士号、博士号を取得しました。彼は当初、数学学部の情報分野で学びましたが、当時、大学には生物情報学があり、その出身の教師もたくさんいました。タンパク質の構造関連の研究に深く関わっていたため、数学の基礎研究から応用に移る際にこの方向を選択することにしました。 「私はまず問題に取り組み、次にツールに取り組みます。」彼は修士課程の在学中からタンパク質構造の分野の研究に注力し始めました。当時、この分野での AI の応用は現在よりもはるかに普及していなかったので、当時彼が接していたツールは「比較的」なものでした。統計ツール、従来のアルゴリズム、機械学習を含む「複雑な」学習、深層学習など。

すべての卒業生と同様に、彼も修士課程の終わり近くに迷いと葛藤を抱えていました。就職の準備を始めるべきか、それとも博士課程の勉強を続けるべきでしょうか? 「日本の慶応義塾大学での交換留学中に、私は強い学術的な雰囲気を感じ、科学研究の道を歩み続けたいという思いが強くなりました。今、私は深い影響を与えた日米の二つの留学交流を思い出します。」彼の上で。

2015年、博士課程最後の2年間にミシガン大学に共同研修に行き、張楊教授の研究室で急速に成長した。

「張楊先生、私を構造予測の扉に連れて行ってくれてありがとう。」前述したように、Zheng Wei は張楊教授の研究室とともに CASP に 3 回参加し、「タンパク質構造予測」として知られるこのオリンピック競技会に多くの実践経験を積んできました。

米国に到着してから数か月後、彼は何も知らずに CASP12 タンパク質構造最適化 (精製) コンテストに参加しました。彼の結果は理想的ではありませんでしたが、彼の興味がどこにあるのかを明確に理解するには十分でした。 ——他人の構造予測の精度を向上させることができるのであれば、自分自身でタンパク質の構造を直接予測してみてはいかがでしょうか?

「このような単純な論理的アイデアに基づいて、私は直接構造予測を行うことにしました。そこで、CASP13 では、Zhang Yang 教授に従い、テンプレートの比較とテンプレートの検索から始めて、テンプレートの構造に基づいて構造予測に焦点を当てました。」 Prediction はアルゴリズム CEthreader を構築し、他のチーム メンバーと協力してアルゴリズム サーバー CI-TASSER を開発し、サーバー グループで 1 位を獲得しました。

この業界コンペティションへの初出場は、彼に大きな自信を与えました。「構造予測は非常に優れており、ある程度実行可能だと思うので、この方向に向けて次々と取り組み始めました。」

鄭偉氏は、構造最適化から構造予測への飛躍を振り返り、「課題もあるが、共通点もある」と率直に語った。初め、2 つの方向の方法論は 2 つのシステムであり、相互に学習したり、経験を直接転送したりすることはできません。その中で、「最適化」は、初期モデルの品質が不均一であるという困難に直面する必要があり、改善の余地がほとんどない可能性があります。誤りも含まれる可能性がありますが、ゼロからの「予測」の難しさは容易に想像できます。第二に、どちらも原子レベルで固定された空間座標であり、空間の移動や変形という点で共通点があるため、「想像するほど難しくない」という。

Zheng Wei 氏は、構造予測の分野を深く掘り下げることを決めた後、CASP14 と CASP15 に参加しました。CASP15では、タンパク質モノマーとタンパク質複合体の2つの方向に着目し、タンパク質複合体予測において他の参加チームを大きく上回るスコアで優勝しました。

CASP15では、鄭偉教授のチームの予測結果が
AlphaFold 2の予測結果と実験構造の比較

業界のベンチマーク: 現実的な問題の解決に重点を置く

2年ごとに開催される国際コンペティションとして、1994年に設立されたCASPは、過去30年間にわたって業界で数多くの重要な成果を収め、生物学分野の発展傾向をよく反映してきました。 Wuzhan CASP の Zheng Wei 教授は次のように述べています。CASPのテーマや競技モードの設定は組織委員会が考えたものではなく、メンバー間の徹底的な議論から生まれました。参加チームはまた、提案に耳を傾け、業界が現在懸念している問題を理解するために招集されます。

このハイレベルなコンテストに参加するチームは、全員が長年この分野で働いてきた上級専門家や学者であることに疑いの余地はありません。「全員が座っていました。これらの方向性は、現時点で計算構造生物学で最も人気のある方向性であるか、あるいは生物学と密接に関連しており、早急に解決する必要がある方向性である可能性があります。」

言い換えると、CASP は、業界のホットな問題を解決するための提案を提供してきました。

先日終了したCASP16を振り返って、「以前に比べて全体的な競技力や難易度が上がった」と考えている。まず、例年に比べて参加チームが大幅に増えましたが、「今年は大会開催以来最も多くの参加チームが集まり、アカデミアを中心に多くのCASPer経験者が参加しており、総合的な競争力は高いと思います。とても激しい。」同時に、彼の観察によると、近年、ますます多くの国内チームがCASPコンテストに参加し、好成績を収めており、その中で、韓国のバイオインフォマティクス分野のチームの割合も増加しているという。ラオスの「空輸任命」以来、参加チームの規模は大幅に変化した。

第二に、コンテストの難易度の上昇は、タンパク質構造予測の分野における全体的な技術の向上を象徴するだけでなく、業界のニーズがより明確であることを裏付けており、そのため、このコンテストは「実用的な生物学的問題により重点を置いている」ということです。

CASP の難易度が上がり、より幅広い問題タイプが提供される傾向について、Zheng Wei 教授は、主に 2 つの理由があると分析しました。一方で、学術界や産業界におけるタンパク質予測の全体的な精度は常に向上しています。2015 年から 2020 年にかけて、タンパク質のモノマー構造予測の精度は急速に向上しており、学術界は「モノマー構造予測の問題は限界に近づいている」という有益な成果を上げています。特に AlphaFold 2 の発売後は、業界の利点を組み合わせ、より強力なモデル機能を備えているため、精度が新たなレベルに引き上げられています。

「一部の分野ではタンパク質モノマーの予測精度を向上させることが困難であるため、誰もがタンパク質複合体やタンパク質アロステリーなど、他の新しい問題の研究に目を向け始めている」と言えます。それはそのままコンテストの問題にも反映されますが、新しい分野では事前調査が少ないため、問題が難しく感じられる可能性があります。

一方で、過去10回以上の大会で、組織委員会が出した質問には生物学的情報や背景が含まれており、「実際の生物学的問題からは少し乖離している」という。質問の種類はほぼ完了しており、未解決です。 2 つのタンパク質 A と B を含むタンパク質の複合体構造予測を例に挙げます。これまでのコンテストでは、A と B の含有量と割合が公開されており、構造予測の難易度は軽減されていましたが、実際の応用では明らかに不可能です。この情報を明確に知るには、そこで今大会も、より実態に近い問題設定に変更し、参加チームは全体の構成を一から予想することになった。

これは実際、鄭偉氏を含む出場者たちに「驚き」を与えた、と彼は水曜日に組織委員会が次週からゼロベースの問題を公開することを通知し、新しい問題を準備する時間がたったの5日間しかないと述べた。パイプライン競争に参加するために、チームは「昼、夜、眠れない夜」の小さなアルゴリズムを開発し、生物学文献に基づいた推論キャリブレーションの実行を支援するために馴染みの生物学者からなる「コンサルティングチーム」に連絡を取りました。

さらに、CASP16 は、オリジナルのタンパク質モノマー構造予測 (REGULAR)、タンパク質複合体構造予測 (MULTIMER)、精度評価 (EMA)、核酸構造予測 (RNA)、およびリガンド複合体構造予測 (LIGAND) トラックにも含まれています。さらに、高分子多構造予測 (ENSEMBLES) が追加されました。これらの 6 つの主要なトラックの中には、多くの細分化されたプロジェクトがあり、それらは互いに重複しています。

それにもかかわらず、鄭偉の「チームを率いる」ことは依然として素晴らしい成績を収めた。彼と彼のチームは、低分子結合を除く 5 つのトラックに参加しただけでなく、同時に、この課題に対処するために、さまざまなトラックに対して個別のアルゴリズムが構築されています。また、タンパク質モノマー単一ドメイン研究グループで 2 位、核酸マルチマー (z スコア >-2.0) のサーバー グループで 1 位、複合体の全体的なフォールディング精度推定で 1 位、タンパク質 -核酸 複合体予測と多重立体構造予測のTMスコアで第1位。

CASP16の開始から1週間後の5月8日、AlphaFold 3サーバーがオンラインになり、すぐに一部の参加チームがそれを使用して独自のアルゴリズムを置き換えようとし始めたことは注目に値します。 「当時はもっと自信があったので、チームと話し合った結果、AlphaFold 3 はあまり使用しませんでした。」彼らは「ルーツにこだわる」ことを決意し、タンパク質複合体構造予測で上位にランクインした唯一のチームとして、AlphaFold 3 を使用しませんでした。

Zheng Wei教授とその他のCASP16参加チーム
CASP組織委員会のジョン・モルト委員長と写真撮影

鄭偉教授は今の話だが、「現時点では少し自信がありすぎるかもしれない」と笑いながら語った。しかし、当時のプレッシャーの高い競争環境では、次のような状況に直面していたという。競合他社は「バフを積み上げて」いました。そのような決定を下し、そのような結果を達成するのに勇気や強さは必要ありません。

AI4Sの蓄積と蓄積、導入と蓄積

Zheng Wei氏のチームがCASP16で生物学者に技術支援を求めたのは事実だが、これは科学用AIの分野における一般的な協力モデルでもある。

いわゆる AI for Science は、AI の利点を利用して従来の科学研究分野の困難な問題に取り組み、効率と精度を向上させることを目的としています。研究分野のニーズと問題点を理解するだけでなく、AI を習得することも必要です。テクノロジー。明らかに、上記の分野を超えた背景を持つ人材は貴重です。同様に、多くの科学研究者が AI やコンピューティング分野に焦点を当て、生物医学に関心を向け始めています。材料化学、地理情報科学などの分野。

情報分野からスタートした鄭偉教授は次のように語った。バイオインフォマティクスの特徴は、「始めるのは早いが、途中の蓄積プロセスが実は比較的長い。蓄積は遅く、蓄積後の爆発は比較的早いが、その後ボトルネック期に入り、さらなる改善には長い時間がかかる可能性があります。「蓄積」。

鄭偉教授が描く「蓄積曲線」

具体的には、タンパク質関連の生物学的背景の研究は、「20種類のアミノ酸を理解すれば、数か月以内に研究を開始できるかもしれない」という要件が比較的緩い。実際の問題では、このプロセスには一定期間にわたる蓄積が必要です。彼は「修士課程の全期間中、私はアルゴリズムに関する基礎的な研究を積み上げていました。」と回想しました。

タンパク質構造予測がボトルネック期間を克服する突破口となった 彼が AI 支援タンパク質構造予測に関する関連研究をさらに掘り下げ始めたのは、ミシガン大学の Zhang Yang 教授の研究室での交換留学期間中にでした。「この方向で経験を積み、次々と成果を上げたのはポスドク時代でした。」

研究の深化とカバー範囲の拡大に伴い、問題のすべての側面を「計算」の観点からカバーすることは難しく、時にはアクセスできない状況に遭遇することもあります。同時に、AI のアルゴリズムやモデルも通過する必要があります。実際の生物学的問題を解決するには、テンパリングを通じてのみ、より良い反復アップグレードを達成し、密室での作業を回避できます。現時点では、鄭偉氏は生物学者や関連チームや機関と常に協力し、コミュニケーションを取っています。

興味深いのは、彼が生物学チームに教え込んでいることです——AI にはあまり期待しないでください。おそらく、エラー率は非常に高いでしょう。科学研究に畏敬の念を抱きつつ、実現可能な現実的な問題に直面するとき、彼は「ドライとウェットの組み合わせ、そして双方が互いに情報を提供し、補完し合うことで、より効果的に実装できるようにする」ことを非常に重視している。固体。"

チームワーク、多分野開発

このインタビューの中で、Zheng Wei 教授は、CASP12 から CASP16 への道のりを経て、CASP での経験と業界の観察を私たちに語っていただきました。著者は、最初は構造最適化という無知な選択から、その後は断固として構造最適化に舵を切るという、長年にわたる自身の変化を見てきたようです。構造を予測し、その面白さを発見し、蓄積とブレークスルーを繰り返し完成させます。

現在、南開大学からさらに多くの教師が CASP チームに参加していると、鄭偉教授は「全員がチームの利益に基づいて協力し、協力するためには、より多くのトラック、またはより多くの指示が必要です。」と述べました。 、チームは従来の有利なトラックに焦点を当てず、フィールド全体に焦点を当てて分散しました。「利益と損失があります。全体的な結果はCASP15ほど良くないかもしれませんが、チームは経験を学びました。」それが「累積曲線」で合格する唯一の方法でもあります。CASP、そしてバイオインフォマティクス分野全体の南海大学チームのさらなる飛躍を期待しましょう。

新メンバー募集

鄭偉教授が勤務する南開大学統計データサイエンス学部のバイオインフォマティクスチームは新メンバーを募集しています!

計算構造生物学、生物情報学、データサイエンスに興味がある方は、修士号、博士号、ポスドクのいずれであっても、Zheng Wei 教授のチームに参加することを大歓迎です。

興味のある学生は、次の方法で Zheng Wei 教授に連絡してください。

※メール:jlspzw@nankai.edu.cn

* WeChat: 18622152765

皆様のご参加をお待ちしております。一緒に科学の謎を探求してください。