HyperAI超神経

SEER は単なる始まりに過ぎないのでしょうか?米国のNIHは、中国のユーザーが中核的な生物医学データにアクセスすることを禁止する文書を発行し、国内のデータベースが整備されている。

特色图像

4月5日、「SEERデータベースが中国ユーザーに対して禁止されている」というニュースが国内の学術界で瞬く間に広まった。

ハイデルベルク大学の博士課程の学生が受け取った公式の返信メールが多くのメディアに転載され、そこには「2025年4月4日より、国立衛生研究所は、国立衛生研究所CADRSおよび関連データを含む進行中のプロジェクトに特定の国の研究者や機関がアクセスすることを禁止し、これらのプロジェクトを終了する」と明記されていた。これらの特定の国には、中国(香港とマカオを含む)、ロシア、イラン、北朝鮮、キューバ、ベネズエラが含まれます。」

Xiaohongshuユーザー「早起学医」は、SEERにログインできないことを個人アカウントで共有しました。

実際、米国国立衛生研究所(NIH)は現地時間4月2日に通知を出している。現地時間4月4日より、懸念国に所在する機関はNIHの制御アクセスデータベースおよび関連データへのアクセスを禁止されることが発表された。

NIH、中国研究者のデータベースへのアクセスを禁止する通知を発行

通知に記載されている大統領令第14117号は、2024年2月に発令された。米国政府は「米国国民の大量の機密個人データおよび米国政府関連データへの特定の国によるアクセスを防止するための大統領令」を発令した。名前が示すように、この法案は中国、ロシア、イランなど6つの「懸念国」が米国民の「大量の機密性の高い個人データや米国政府関連データ」にアクセスすることを制限している。

大統領令第14117号

すべての「機密データ」の中で、バイオインフォマティクスデータが最も大きな打撃を受けています。

科学的な冷戦が始まるかもしれない

大統領令が発令されてから1年後、ついにオープン性とボーダーレス性を標榜する学術分野にも影響が及んだ。 NIH が最初に放った一撃として、SEER の影響は明らかです。

SEER は、米国国立癌研究所 (NCI) によって設立され、維持されている癌データ統計システムです。1973 年の運用開始以来、米国の人口の約 48% をカバーし、世界で最も権威があり、最も広く使用されている癌疫学データベースの 1 つとなっています。データには、年齢、性別、診断時期などの基本情報、がんの種類、病理分類、病期などの診断情報、手術、放射線療法・化学療法などの治療情報、生存期間、生存状況などの経過観察情報が含まれます。このデータベースは、腫瘍疫学、公衆衛生、予後モデルの分野で極めて高い研究価値を持っていることは間違いありません。

確かに、SEER データベースの禁止はすでに最終的な決定ですが、危険にさらされている有名なデータベースはまだ数多くあります。

NIH は米国の主要な医療研究機関として、さまざまな疾患領域に焦点を当てた 27 の研究所とセンターを擁しています。その中で、がん研究に力を入れているNCIは、SEERデータベースを維持するだけでなく、がんゲノムアトラスTCGA(The Cancer Genome Atlas)も管理しています。基礎生物学研究に重点を置く国立総合医学研究所(NIGMS)は、タンパク質データベースであるタンパク質データバンクの維持管理を担当しています。米国国立医学図書館(NLM)は、世界有数の医学文献データベースであるPubMedを所有しています。米国国立生物工学情報センター (NCBI) は、遺伝子型-表現型データベース dbGaP を所有しています...

上記の一般的に使用されている高価値データベースはすべて NIH に属します。つまり、これらはすべて中国のユーザーによるアクセスが禁止されているのです。おそらくそれは時間の問題でしょう。データの制限は、一方では過度に偏った研究結果につながり、他方では研究の難易度とサイクルを増大させます。これは間違いなく国内の科学研究コミュニティに警鐘を鳴らした。海外チームとの協力を積極的に推進するとともに、国際的に代表的な「中国データベース」を構築することにも大きな意義がある。

積極的にローカルデータベースを構築する

科学研究におけるデータの重要性については詳しく説明する必要はありません。伝統的な科学研究であれ、今日の科学のための AI であれ、それは研究の結論にとって重要なサポートとなります。特に生物学や医学の分野では、データ収集がより困難になります。そのため、大統領令第14117号が発令された直後から、一部の研究者は、国立生物工学情報センター(NCBI)データベースやがんゲノムアトラス(TCGA)などの高頻度データはアクセス制限される危険があると警告していた。

業界関係者はディープテックのインタビューで、「このデータベースへのアクセス制限の問題に対処するには、試してみる価値のある点がいくつかあると思う。まず、中国の学者が集団で訴え、米国と協議して、制限されているデータベースを有料制に変更するなど、実行可能な解決策があるかどうかを確認することができる。次に、制限されていない他の第三国と協力することができる。最後に、最も重要な点は、中国が迅速に独自のデータベースを確立する必要があることだ」と述べた。独自のデータベースを構築すれば、アメリカと交渉する際により多くの交渉材料が得られるでしょう。例えば、双方がデータベースを相互に公開し、相互共有を図るべきかどうかについて議論することができます。」

短期的にはSEERを完全に置き換えることはまだ難しいものの、国内の生命科学・医療データベースの蓄積は長期にわたり一定の成果を上げており、一部のデータベースはある程度補完的な役割を果たすことができる。

例えば、国立ゲノム科学データセンターは、ヒト、動物、植物、微生物のゲノムデータを中心としたデータベースシステムとデータリソースの構築に重点を置いています。現在、生物学研究プロジェクト情報を共有するためのデータベース「BioProject」、世界的な生物学データベースディレクトリ「Database Commons」、ゲノム変異データベース「Genome Variation Map (GVM)」、生命科学文献ライブラリ「OpenLB」などを構築しています。
* 公式サイト:https://ngdc.cncb.ac.cn/

国立ゲノム科学データセンター公式ウェブサイト

国立生物情報科学センターは現在、国内データ69.9PB、国際データ7.75PBを収集しています。バイオインフォマティクスデータベースプラットフォームには、ゲノム、RNA-seq、エピゲノムなどのデータが含まれています。一般的に使用されるデータベースには、複数種の全ゲノムデータの公開アーカイブデータベース(Genome Warehouse、GWH)、生物サンプル情報を共有するためのリソースライブラリ_生物サンプルデータベース(BioSample)などがあります。
*公式サイト:https://www.cncb.ac.cn/

国立バイオインフォマティクスセンター公式ウェブサイト

深セン国立遺伝子銀行(CNGB)が構築した中国国立遺伝子銀行データベース(CNGBdb)プラットフォーム生物遺伝資源サンプルと情報共有・応用サービスの提供データの送信とアーカイブ、計算分析、知識検索、科学データベースの開発をサポートします。

同社は、Spatiotemporal Omics Consortium (STOC) と共同で、STOmicsDB (Spatial Transcript Omics DataBase) 時空間データ ポータルを設立しました。空間トランスクリプトーム データのアーカイブ標準とシステムが確立され、マウス胚発生時空間トランスクリプトーム アトラス (MOSTA) を含むいくつかの主要な科学プロジェクトをサポートしています。 STOmicsD を通じて、ユーザーは、生のシーケンス データ、空間トランスクリプトーム マトリックス、注釈ファイル、画像情報、および下流の分析結果のデータ分析と視覚化など、さまざまなデータ タイプを送信できます。

また、同社が構築したCDCP(細胞オミクスデータコーディネートプラットフォーム)細胞グループデータポータルは、多次元細胞遺伝学データの統合と標準化を実現し、非ヒト霊長類細胞アトラス(NHPCA)などの数多くの主要な科学プロジェクトをサポートし、世界中の研究者に非常に効率的な細胞遺伝学データコラボレーションプラットフォームを提供しました。

同社が立ち上げたゲノミクス データ ポータルは、地球規模の生物多様性データの統合と共有を目的としています。当社は、地球バイオゲノムプロジェクト(EBP)やMEER(マリアナ海溝環境生態学研究)などの主要な科学プログラムを立ち上げ、生物多様性分野における豊富なゲノムデータリソースを世界中の研究者に提供しています。

結論

今日、科学技術は大国間の競争の主な舞台となっている。特にAIの急速な発展により、国境のない科学研究という概念はもはや純粋なものではなくなってきているようです。しかし、近年では自主管理や国内代替が多くの分野で成果を上げています。開放性とウィンウィンの協力を呼びかけ、国際協力を推進する一方で、地域データベースの構築を強化することがより急務となっている。

参考文献:

1. https://mp.weixin.qq.com/s/MuByzwwJS-D4W8QuVkjHDw

2. https://grants.nih.gov/grants/g