HyperAI초신경

SEER는 단지 시작일 뿐인가? 미국 NIH는 중국 사용자의 핵심 생물의학 데이터 접근을 금지하는 문서를 발표했으며, 국내 데이터베이스가 구축되어 있습니다.

特色图像

4월 5일, “SEER 데이터베이스는 중국 사용자에게 금지되어 있다”는 소식이 국내 학계에 빠르게 퍼졌습니다.

하이델베르크 대학의 박사과정 학생이 받은 공식 답변 이메일을 여러 언론 매체에서 재인쇄했는데, 여기에는 "2025년 4월 4일부터 미국 국립보건원(NIH)은 특정 국가의 연구자와 기관이 미국 국립보건원 CADRS 및 관련 데이터를 포함하는 진행 중인 프로젝트에 접근하는 것을 금지하고, 이러한 프로젝트를 종료할 것"이라고 명시되어 있었습니다.이러한 특정 국가로는 중국(홍콩, 마카오 포함), 러시아, 이란, 북한, 쿠바, 베네수엘라가 있습니다."

Xiaohongshu 사용자 "早起学医"는 개인 계정에서 SEER에 로그인할 수 없다고 공유했습니다.

실제로 미국 국립보건원(NIH)은 현지 시각으로 4월 2일에 공지를 내렸습니다.4월 4일 현지 시각부터 우려 국가에 있는 기관은 NIH 통제 접근 데이터베이스와 관련 데이터에 접근하는 것이 금지된다고 발표되었습니다.

NIH, 중국 연구원들의 데이터베이스 접근 금지 공지 발표

해당 공지에 언급된 행정명령 제14117호는 2024년 2월에 발표되었습니다. 미국 정부는 "특정 국가가 미국 시민의 대량의 민감한 개인 데이터와 미국 정부 관련 데이터에 접근하는 것을 방지하는 행정명령"을 발표했습니다. 이름에서 알 수 있듯이, 중국, 러시아, 이란 등 6개 "우려 국가"가 미국 시민의 "대량의 민감한 개인 데이터와 미국 정부 관련 데이터"에 접근하는 것을 제한합니다.

행정명령 제14117호

모든 "민감한 데이터" 중에서 생물정보학 데이터가 가장 큰 타격을 입습니다.

과학적 냉전이 시작될 수도 있다

행정명령이 발표된 지 1년 만에, 이는 마침내 개방성과 국경 없는 삶을 주장하는 학계에 영향을 미쳤습니다. NIH가 발사한 첫 번째 총격으로 SEER의 영향력이 명백해졌습니다.

SEER은 미국 국립암연구소(NCI)가 구축하고 유지하는 암 데이터 통계 시스템입니다.1973년 운영 이래로 세계에서 가장 권위 있고 가장 널리 사용되는 암 역학 데이터베이스 중 하나가 되었으며, 미국 인구의 약 48%를 포괄합니다. 이 데이터에는 나이, 성별, 진단 시간, 암 유형, 병리학적 분류 및 병기와 같은 진단 정보, 수술, 방사선 치료/화학 요법과 같은 치료 정보, 생존 시간 및 생존 상태와 같은 후속 정보 등의 기본 정보가 포함됩니다. 이 데이터베이스가 종양 역학, 공중 보건, 예후 모델 분야에서 매우 높은 연구 가치를 가지고 있다는 것은 의심의 여지가 없습니다.

물론, SEER 데이터베이스에 대한 금지는 이미 최종 결정이지만, 여전히 위험에 처한 잘 알려진 데이터베이스가 많이 있습니다.

미국의 주요 의학 연구 기관인 NIH는 다양한 질병 분야에 초점을 맞춘 27개의 연구소와 센터를 보유하고 있습니다.그중에서도 암 연구에 주력하는 NCI는 SEER 데이터베이스를 관리할 뿐만 아니라, 암 게놈 아틀라스 TCGA(The Cancer Genome Atlas)도 관리하고 있습니다. 기초 생물학 연구에 중점을 둔 국립 일반 의학 연구소(NIGMS)는 단백질 데이터베이스인 단백질 데이터 뱅크를 유지 관리할 책임이 있습니다. 미국 국립의학도서관(NLM)은 세계 최고의 의학 문헌 데이터베이스인 PubMed를 소유하고 있습니다. 미국 국립생명공학정보센터(NCBI)는 유전형-표현형 데이터베이스 dbGaP를 소유하고 있습니다.

위에 언급된 일반적으로 사용되는 고가치 데이터베이스는 모두 NIH에 속합니다. 즉, 이들 모두 중국 사용자의 접근이 금지되어 있습니다. 아마도 시간문제일 뿐일 것이다. 한편으로는 데이터의 한계로 인해 연구 결과가 지나치게 일방적으로 도출될 수 있고, 다른 한편으로는 연구의 난이도와 주기가 증가할 수 있습니다. 이는 의심할 여지 없이 국내 과학 연구계에 경각심을 불러일으켰습니다. 해외팀과의 협력을 적극 추진하는 것 외에도, 국제적으로 대표되는 "중국 데이터베이스"를 구축하는 것은 매우 중요한 의의가 있습니다.

지역 데이터베이스를 적극적으로 구축하세요

과학 연구에 있어서 데이터가 얼마나 중요한지 자세히 설명할 필요는 없습니다. 전통적인 과학 연구이든 오늘날의 과학을 위한 AI이든, 이는 연구 결론을 뒷받침하는 중요한 자료입니다. 특히 생물학과 의학 분야에서는 데이터 수집이 더 어렵습니다. 따라서 행정명령 제14117호가 발행된 이후 이미 일부 연구자들은 국립생명공학정보센터(NCBI) 데이터베이스와 암게놈아틀라스(TCGA)와 같은 고빈도 데이터가 접근이 제한될 위험이 있다고 경고했습니다.

한 업계 관계자는 딥테크와의 인터뷰에서 "이 데이터베이스 접근 제한 문제를 해결하기 위해 시도해 볼 만한 몇 가지 방안이 있다고 생각합니다. 첫째, 중국 학자들이 집단적으로 호소하고 미국과 협의하여 유료 시스템으로만 제한되는 데이터베이스를 변경하는 등 실현 가능한 해결책을 모색할 수 있습니다. 둘째, 제한되지 않은 다른 제3국과 협력할 수 있습니다. 마지막으로 가장 중요한 것은 중국이 자체 데이터베이스를 신속하게 구축해야 한다는 것입니다.우리가 자체 데이터베이스를 구축하면 미국과 협상할 때 더 많은 협상 수단을 확보할 수 있을 겁니다. 예를 들어, 양측이 서로의 데이터베이스를 공개하고 상호 공유를 이루어야 하는지 논의할 수 있습니다."

단기적으로 SEER을 완전히 대체하기는 아직 어렵지만, 국내 생명과학과 의학 데이터베이스가 장기간 축적되면서 어느 정도 성과를 거두었고, 일부 데이터베이스는 일정 부분 보완 역할을 할 수 있을 것으로 보인다.

예를 들어, 국가 유전체 과학 데이터 센터는 인간, 동물, 식물, 미생물의 유전체 데이터를 중심으로 데이터베이스 시스템과 데이터 리소스를 구축하는 데 중점을 두고 있습니다.현재 우리는 생물학 연구 프로젝트 정보를 공유하기 위한 BioProject 데이터베이스, 글로벌 생물학 데이터베이스 디렉토리인 Database Commons, 게놈 변이 데이터베이스인 Genome Variation Map(GVM), 생명과학 문헌 라이브러리인 OpenLB 등을 구축했습니다.
* 공식 홈페이지:https://ngdc.cncb.ac.cn/

국립게놈과학데이터센터 공식 홈페이지

국가생물정보센터는 현재 국내 데이터 69.9PB, 국제 데이터 7.75PB를 수집하고 있습니다.생물정보학 데이터베이스 플랫폼에는 게놈, RNA-seq, 에피게놈 등의 데이터가 포함되어 있습니다. 일반적으로 사용되는 데이터베이스에는 여러 종의 전체 게놈 데이터를 위한 공공 아카이브 데이터베이스(Genome Warehouse, GWH), 생물학적 샘플 정보를 공유하기 위한 리소스 라이브러리인 생물학적 샘플 데이터베이스(BioSample) 등이 있습니다.
*공식 홈페이지:https://www.cncb.ac.cn/

국립생물정보학센터 공식 홈페이지

심천 국립 유전자은행(CNGB)이 구축한 중국 국립 유전자은행 데이터베이스(CNGBdb) 플랫폼생물유전자원 시료 및 정보공유·응용 서비스 제공데이터 제출 및 보관, 계산 분석, 지식 검색, 과학적 데이터베이스 개발을 지원합니다.

STOC(Spatiotemporal Omics Consortium)와 공동으로 STOmicsDB(Spatial Transcript Omics DataBase) 시공간 데이터 포털을 구축했습니다.공간 전사체 데이터 보관 표준 및 시스템이 확립되어, MOSTA(마우스 배아 발달 시공간 전사체 지도)를 포함한 여러 주요 과학 프로젝트를 지원하게 되었습니다. STOmicsD를 통해 사용자는 원시 시퀀싱 데이터, 공간 전사체 매트릭스, 주석 파일, 이미지 정보, 다운스트림 분석 결과의 데이터 분석 및 시각화를 포함한 다양한 데이터 유형을 제출할 수 있습니다.

또한,CDCP(Cell-omics Data Coordinate Platform)가 구축한 세포군 데이터 포털입니다.다차원 세포유전체학 데이터의 통합과 표준화를 달성하고, 비인간 영장류 세포 지도(NHPCA)와 같은 여러 주요 과학 프로젝트를 지원했으며, 전 세계 연구자들을 위한 매우 효율적인 세포유전체학 데이터 협업 플랫폼을 제공했습니다.

이 기관이 시작한 게놈 데이터 포털은 전 세계 생물다양성 데이터의 통합과 공유에 전념합니다.지구 바이오게놈 프로젝트(EBP)와 MEER(마리아나 해구 환경 및 생태 연구)과 같은 주요 과학 프로그램을 시작함으로써 우리는 전 세계 연구자들에게 생물다양성 분야의 풍부한 게놈 데이터 리소스를 제공합니다.

결론

오늘날 과학과 기술은 주요 강대국 간의 경쟁의 주요 장이 되었습니다. 특히 AI의 급속한 발전으로 국경 없는 과학 연구라는 개념은 더 이상 순수하지 않은 것으로 보입니다. 그러나 최근 들어 자주적 통제와 국내 대체가 많은 분야에서 성과를 거두고 있습니다. 개방성과 윈윈 협력을 촉구하고 국제 협력을 촉진하는 한편, 지역 데이터베이스 구축을 강화하는 것이 더욱 시급합니다.

참고문헌:

1. https://mp.weixin.qq.com/s/MuByzwwJS-D4W8QuVkjHDw

2. https://grants.nih.gov/grants/g