HyperAI超神経

コンピューター ビジョンから医療 AI まで、上海交通大学の謝偉迪氏との会話: 問題を解決することよりも問題を定義することが重要

特色图像

伝説的な「終末の年」である 2012 年、モバイル インターネットは爆発的な時代を迎えました。 3Gネットワークの普及、スマートフォンの低価格化、WeChatやMiLiaoに代表される通信アプリケーションや電子商取引、決済の急速な台頭などにより、この分野は新たな成長を遂げています。さまざまな革新的なアプリケーションの基盤として、通信業界の発展の見通しは有望です。

「当時の私の理解では、通信技術はすでに非常に成熟しており、中国は技術面で世界の先頭に立っているということでした。当時、国家間の主な紛争は通信プロトコルの問題であり、それは技術の範囲を超えていました。」その頃、謝偉迪は北京郵電大学で4年間の学部課程を修了し、人生の岐路に立ったとき、「私はこの専攻があまり好きではない。もちろん、好きではなかった可能性もある」と率直に認めた。それを理解してください。」

彼はすぐに海外留学を選択し、2022 年に英国のユニバーシティ カレッジ ロンドン (UCL) とオックスフォード大学で修士号、博士号、博士研究員を取得し、研究を行いました。中国に帰国し、上海交通大学に入学し、コンピュータビジョン分野での蓄積を医療用人工知能に持ち込み、新たな戦場を切り開こうとしている。

謝偉迪教授の通信からコンピュータビジョンへ、そしてコンピュータビジョンから医療用人工知能への二つの転換も、選択における迷い、新たな分野への挑戦、そしてその後の達成感という二つの重要な結節点であると言えます。結果が発表される、これが彼の履歴書のハイライトです。

最近、HyperAI は Xie Weidi 教授との詳細なインタビューを行う機会に恵まれ、彼の個人的な経験に基づいて、コンピューター ビジョンからヘルスケア向け AI への移行に関する経験を共有し、また、業界の発展傾向。

一般的な医療AIシステムは「インテリジェントな創発」を生み出すことができる

「多くの人は、なぜ私が一般的な医療用人工知能システムを構築したいのか理解していません。なぜなら、特定の疾患の診断と治療モデルの方が明らかに実用的だからです。」大規模モデルがあらゆる分野に力を与えている今日、業界では常に専門化と一般化が議論の焦点となっています。特殊化されたモデルは、特定の領域でより高い精度と有用性を実証できますが、一般化機能は限られています。一般モデルの幅広い知識ベースはさまざまな分野を結び付けることができますが、特定の分野での機能は独自のモデルほど優れていないことがよくあります。

Xie Weidi 氏は、専用モデルと汎用モデルにはそれぞれ長所と短所があるが、「しかし、汎用の医療 AI システムを開発することが私たちがしなければならないことである」と考えています。彼はこう思います、ユニバーサルとは、モデルが異なるモーダル データ間の隠されたつながりを確立できることを意味し、それによっていわゆる「インテリジェンスの出現」が生成されます。これは、疾患、特に原因が不明瞭な疾患の診断に不可欠です。たとえば、肺炎 A と肺炎 B の分類問題の場合、画像とテキストをトレーニングに使用すると、これらのマルチモーダル データを最下層で直列に接続して、2 つの肺炎の症状の類似点と相違点を特定し、達成することができます。ただし、画像のみで訓練されているため、ネットワークは必ずしもこの関係を学習するとは限りません。 「したがって、サイエンスディスカバリーの観点からすると、一般的なモデルは非常に価値があります。」

マルチモーダルな普遍的な医療モデルを構築したい場合は、医療知識を可能な限り包括的にモデルに注入する必要があります。しかし、医療分野のデータは倫理、安全性、品質など多くの要素の影響を受けるため、一般に入手や活用が困難です。この課題に対処するために、Xie Weidi が選択したのは、コンピュータ ビジョンでのデータ収集方法を医療分野に移行すること、つまりインターネットからデータをクロールすることでした。「もちろん、この方法でトレーニングされた大規模なモデルが臨床で使用できないことはわかっていますが、才能をより良く育成し、データの収集、分類、クリーニングなどのビッグデータを処理するチームの能力をトレーニングすることができます。」

たとえば、チームは 30,000 冊以上の医学書を収集し、PubMed Central で 400 万件の医学文書を完全にクロールし、またインターネット上で中国語、英語、ロシア語、日本語を含む 8 言語の医学論文や書籍を収集し、変換しました。言語モデルをトレーニングできるコーパスにそれらを変換します。

チームによって構築されたデータセット

さらに、インターネット上で公開されている画像テキスト データがマイニングされ、25 万件以上の 3D スキャンと 100 万件以上の 2D 医学論文画像が収集されました。さらに、普遍的なセグメンテーション モデルをトレーニングするために、チームは、30,000 を超える 2D/3D 画像と数百万のピクセル レベルの注釈を含む、市場で入手可能な放射線画像の 120 近くの公開セグメンテーション データ セットも標準化しました。さまざまな一般的な放射線画像をカバーしています。 MR、CT、PETなどの画像診断モダリティ。医療 AI 研究における医療データ セットの重要な役割をよく認識していたチームは、取得したデータ セットのほとんどをオープンソースにしました。

一般的なモデルを構築する際、チームは画像、テキスト、ゲノミクス、ECG信号などを含む取得されたすべてのマルチモーダルデータを共同でトレーニングし、画像上の病変位置、テキストレベルの診断、レポートを最も基本的な出力として使用したいと考えています。形状。トレーニングの過程で、普遍的な機能を実現するには、医学知識の埋め込みも欠かせません。「これは、病院内の多くの部門のタスクが異なり、医師は自分の部門に注意を払う傾向があるためです。私たちは、ユニバーサルモデルがすべての検査情報をカバーし、処理時に段階的な思考の連鎖を形成できることを望んでいます」タスクを実行し、鑑別診断などのタスクを完了します」と Xie Weidi 氏は紹介しました。

マルチモーダルユニバーサルAl医療大型モデルコンセプト

指導者は「何もすることがない」とき、黙々と力を蓄える

前述したように、一般的な医療 AI システムを開発する際に、謝偉迪氏のアプローチは、コンピューター ビジョンの分野から医療の分野に手法を移すことであったからです。彼はこれまで 10 年近くコンピュータ ビジョンの研究に従事しており、深い知識の蓄積を持っています。しかし、最初にこの専攻を選んだのは彼にとって「間違い」だった。

Xie Weidi は学部生として北京郵電大学で学びました。 「コミュニケーションに興味がなかったため、学部の成績は非常に悪かった。就職できないのではないかと不安だったので、留学を選びました」と笑顔で語る。

2012 年、Xie Weidi はコンピューター ビジョンの修士号を取得するために英国のロンドン大学に入学しました。今回、彼は興味のある分野を見つけ、非常に真剣に勉強に取り組みました。「私の指導教官は、私がこの分野の科学研究に非常に適していると考え、博士号を取得することを勧めてくれました。」当時彼が直面した問題は、英国には博士課程の奨学金がほとんどなかったため、研究を続けるために私費で博士課程の勉強を選択するかどうかでした。 「家庭教師が私にオックスフォード大学を勧めてくれたので、たとえ自分で費用を支払わなければならなかったとしても、その投資はより価値のあるものになるでしょう。」

幸いなことに、2014 年に、AlphaGo プロジェクトをより効果的に推進するために、DeepMind は AI 分野での人材育成を強化することを決定し、オックスフォード大学と協力して奨学金を設立し、Xie Weidi が最初のオックスフォードと Google の DeepMind 全額奨学金の受賞者となりました。 。DeepMind の 100 万元近くの奨学金のおかげで経済的プレッシャーはやがて解決されましたが、彼が直面した本当の問題は、2 人の指導者たちの寛大な態度によって卒業が危うく阻まれそうになったことでした。

「私が博士号取得のために勉強していたとき、私には 2 人の強力な指導者がいました。1 人はコンピューター ビジョンの分野のアンドリュー ジサーマン教授でした。彼は王立科学アカデミーの会員であり、創設者の 1 人ともみなされます。もう一人は医療画像を研究するJ・アリソン・ノーブル教授で、王立科学アカデミーと工学アカデミーの両方の会員であり、当時、彼らは私がお互いの研究にもっと関与するだろうと信じていました。研究の結果、私はジレンマに陥りました。」謝氏が当時勤務していたオックスフォード大学の Visual Geometry Group (VGG) は、畳み込みニューラル ネットワーク VGGNet の開発で大きな注目を集め、グループのメンバーは一般に国際的な学術コミュニティで高い評価を得ており、謝氏が直面したのはそれだけではありませんでした。同期の急速な進歩にはギャップがあると同時に、常に新しい研究テーマを探求する必要があります。

当時、AlphaGo の影響でディープラーニングが人気となり、謝偉迪も生成モデルに興味を持つようになりましたが、彼の指導者であるアンドリュー ジッサーマン教授は、「ホットではないが、より価値のある」研究を行うことを好みました。 「毎週の会議中に、クラスメートは週ごとの仕事の進捗状況を AZ に報告できますが、私は通常、大量の書類を持って出席し、読むべき新しい書類を大量に持ってきます。」同時に、英国では医用画像データが非常に厳しく管理されていたため、データなしでは研究を行うことは不可能であり、もう一人の指導者である J アリソン・ノーブルからフィードバックを得ることができませんでした。 「卒業前年の時点で、私はワークショップの論文を1本しか発表していませんでした。このままでは卒業できないかもしれないと指導教員2人にフィードバックしました。」

ことわざにあるように、姿を変えた祝福は姿を変えた祝福です。講師に却下されて実行できなかったテーマも多かったので、自由時間には、当時のコンピューター ビジョンの分野の論文をほぼすべて読み、その蓄積が将来の科学研究の強固な基盤を築きました。「当時は、講師に確認してもらえれば、数日で終わらせられると感じていました」と語る。

2018 年、Xie Weidi は 2 人の指導者のサポートを受けて、コンピューター ビジョンと医療画像の分野で 7 件の論文を発表し、無事卒業しました。 AZ も彼の強みを認め、2022 年に中国に帰国するまでコンピューター ビジョン研究を専門とするポスドク研究を続けるよう招待しました。

謝偉迪の卒業写真

コンピュータビジョンと医療の最も本質的な違いは知識です

家族と仕事のバランスで悩む人は数え切れないほどいますが、謝偉迪も同様です。「中国に戻るという選択は突然の決断でした。私はオックスフォードに残り、助教授の職に就く機会があると考えていましたが、徐々にそこの環境が私が深い研究を続けるのに適していないことに気づきました。 、新米の父親として、当時の私の経済力とエネルギーは家族を養うのに十分ではありませんでした。」

著者の意見では、謝偉迪は、科学研究において高く評価される謙虚で現実的な性格に加え、さらに勇敢な性格を持っています。彼は中国に戻ると決めてすぐに、「海外の優秀な若者」や「買い回り」というレッテルを気にせず、すぐに国内の大学に連絡を取り、上海交通大学に履歴書を提出して無事就職に成功した。

謝偉迪さんは交通大学で授業を受けています

興味深いことに、上海交通大学の張雅先生は新人研修の過程で「人事」の役割を果たしており、張雅先生との知り合いは出版された雑誌記事に端を発しています。 「2018年に、張雅先生と生徒たちは、私が出版した医療画像関連の論文を複製したいと考え、私のWeChatアカウントを追加しました。」この機会が彼に中国に戻る道を開いたのです。張雅先生に履歴書を送ったところ、すぐに返事が届きました。「幸いなことに、学校はすべての手続きを非常に早く進めてくれました。」

上海交通大学に入学後、当初のコンピュータ ビジョンの研究を続けることに加えて、医療用人工知能の研究を開始しました。「当時、科学研究で AI を試してみたいと思っていました。医療健康にもっと触れていて、それに興味があったので、この方向を選びました。」

2022 年、ChatGPT の出現と時を同じくして、Xie Weidi は言語から開始し、当時非常に求められていた医療画像入力を放棄することを決定したことは言及する価値があります。 「医療とコンピュータ ビジョンの最も本質的な違いは知識だと思います。医学は証拠を追求するものであり、体系的で標準化された知識を持っているからです。しかし、視覚領域の医療画像のモデルに知識を埋め込むのは困難です。 」彼のビジョンでは、チームは医学知識を言語モデルに埋め込み、視覚モデルを言語モデルと調整して医学知識を視覚モデルに転送することができます。

著者は、おそらくアンドリュー・ジッサーマン教授の影響により、謝維迪からは科学研究に対する彼の鋭い直感が深く感じられます。彼はメンターについて次のようにコメントしました。「アリゾナ州の多くのトピックは、短期的な話題を追求するのではなく、長期的な価値に焦点を当てています。」たとえば、視覚言語モデル PMC-CLIP を開発するとき、多くの研究が初めて行われたため、チームの学生はこのプロジェクトの重要性を十分に理解していませんでした。なぜインターネット上のすべての論文をクロールしなければならないのか?モデルをトレーニングするためになぜ画像や注釈を抽出する必要があるのでしょう... 「論文が提出されたときでさえ、MICCAI はほとんど拒否しました。」

しかし、ある時期を経て、PMC-CLIPモデルはMICCAIの「若手科学者出版インパクト賞最終リスト」にも選ばれ、その成果も認められました。 「最初はこの研究の有用性について生徒たちを説得するのが難しかったです。幸運だったのかもしれません。たまたま私が選んだテーマが、後にみんなが興味を持つものになったのです。」

謝偉迪教授はインタビューの中で何度も「幸運だった」と述べた。オックスフォード大学に入学できたのは幸運だったし、オックスフォードとグーグルのディープマインド奨学金の第一期生に選ばれたのも幸運だったし、上海交通大学に入学できたのも幸運だった。中国に戻った後、研究の方向性と技術的な道を選択したのも幸運でした...しかし、著者の意見では、ほとんどの幸運は以前の行動の予兆かもしれません。時間の経過とともに蓄積されたエネルギーが、その時点での正しい決定を促すことになります。

問題を解決することよりも問題を定義することが重要です

謝偉迪が幸運だったのは、「彼が選んだテーマが、たまたま後でみんなが興味を持ったことだった」ということだ。しかし、著者は、研究テーマの選択はこの分野におけるチームリーダーの独特の観察を正確に反映していると信じており、謝偉迪はそれを「定義の問題」として表現した。問題を定義することは、それを解決することよりも重要です。意味のある問題が定義されている限り、無数の人々がそれをフォローして解決します。したがって、この段階で、どの問題がモデルによって解決するのに最も価値があるのかを考える必要があります。これは重要です。

さらに、問題を解決する際には「人材・データ・計算力」が不可欠です。

現在、AI4S の開発はまだ初期段階にあり、AI の専門家はモデルの構築とフレームワークの最適化においてより有利ですが、科学の専門家は垂直分野における科学的問題を正確に特定することに優れています。また、両者は普遍的な協力モデルも模索しています。この点で、謝偉迪氏のチームは、上海交通大学医学部の多くの教師や学生と協力することを選択し、彼らの医療分野での専門知識を最大限に活用し、チームが研究の方向性を決定するのを助けるコンサルタントとして役割を果たしてもらいました。実際の医学的価値があります。さらに、彼らは「品質検査官」としても機能し、サンプリングされたデータの品質を管理して、データが 90% 以上クリーンであることを確認します。

同時に、チーム構築が徐々に改善され、学生はネットワーク データ クローリング技術に習熟しました。次に直面する問題は、インターネット データ リソースが枯渇に近づいていることです。この点に関して、チームは病院と協力してより質の高い医療データを取得し、モデルの実装を試みたいと考えています。謝偉迪はこう強調した。「ナレッジドリブン」または「データとナレッジの共同ドリブン」は、単なる「データドリブン」よりも重要です。したがって、チームは医学知識を中心に置き、チームメイトと協力してより実践的な問題を解決したいと考えています。

医療AIの解釈可能性は医師にとって長い間「大きな問題」であったことは言及する価値がある。この点に関して、謝偉迪は次のように考えています。AI が診断精度で一流の医師を上回るほど強力になれば、解釈可能性はもはや問題ではなくなります。たとえば、Google が発表した Med-PaLM 2 モデルは、USMLE 医師資格試験で 86.5 という高スコアを達成しました。さらに、Google のチームは、医療用大規模言語モデル PMC-LLaMA、MMed-LLaMA、および Visual を次々と発表しました。 -言語モデル、MedVInT、RadFM、ユニバーサル セグメンテーション モデル SAT など、複数のモデルが業界でベースラインとみなされ、NPJ Digital Medicine、Nature Communications、ICCV、ECCV、NeurIPS で使用されています。 、MICCAI およびその他の著名なジャーナル/トップカンファレンスでの成果の反復速度は、AI に対する医師の見方を徐々に変えており、将来的には質の高い協力関係の確立が期待されます。

コンピューティングリソースと財政保証の面でも、上海交通大学はチームの予備研究と将来の成果の変革に全面的なサポートを提供しており、大学内のさまざまなチームも積極的に協力の機会を模索しており、学術的な雰囲気は強いです。

貴重な研究をする

Xie Weidi教授とのコミュニケーションの中で、彼は価値ある研究をしたいと何度も述べていました。同氏の見解では、チームのこれまでの研究は「学術界におけるおもちゃのプロトタイプ」としかみなされておらず、最終的な実装を達成するには小型モデルをさらにスケールアップする必要があるという。彼は、これらのプロトタイプが他の研究者や業界に参考になり、どのような種類のデータを使用する必要があるか、データを処理する方法、モデルを構築およびトレーニングする方法、指示を設定する方法を全員に伝えることができることを望んでいます。

将来的にチームは、医師が関心のある 100 以上のタスクを統合してトレーニングする臨床指向のスーパーインストラクションを構築し、モデルが実際の臨床ニーズの解決に集中できるようにする予定です。この点に関して、彼は次のようにコメントしました。「従来の言語モデルは主に多肢選択式の質問を使用して評価されますが、医師とコミュニケーションをとる場合、医師は多肢選択式の質問のスコアがどの程度高いかは気にしておらず、むしろ、多肢選択式の質問のスコアが高いかどうかを気にしていることがわかります。このモデルは、臨床タスクの能力など、実際的な問題を解決できます。」

さらに、チームはゲノミクス、DNA、RNA、アミノ酸のレベルで関連する研究を掘り下げ始めており、これまで画像やテキストに依存していた限界を打ち破り、希少疾患の診断とより多くの可能性を生み出したいと考えています。今後の新薬開発に期待です。

詳しい結果については、Xie Weidi Google Scholar をご覧ください。

https://scholar.google.com/citations?user=Vtrqj4gAAAAJ&hl=zh-CN