Therapeutics Data Commons: 약물 발견 및 개발을 위한 기계 학습 데이터셋과 작업

치료제 개발을 위한 기계 학습은 혁신과 영향력 면에서 놀라운 기회를 가진 새로운 분야입니다. 그러나 이 분야의 발전은 의미 있는 학습 과제의 설정과 데이터셋의 신중한 큐레이션이 필요합니다. 본 연구에서는 치료제 개발 전반에 걸쳐 기계 학습을 체계적으로 접근하고 평가할 수 있는 최초의 통합 플랫폼인 치료제 데이터 공용체(Therapeutics Data Commons, TDC)를 소개합니다. 현재까지 TDC는 안전하고 효과적인 의약품 발견 및 개발 과정을 아우르는 22개의 학습 과제에 걸쳐 66개의 AI 대비 데이터셋을 포함하고 있습니다. 또한 TDC는 33개의 데이터 함수와 유의미한 데이터 분할 유형, 23개의 체계적인 모델 평가 전략, 17개의 분자 생성 오라클, 그리고 29개의 공개 리더보드를 제공하는 도구와 커뮤니티 자원들의 생태계를 제공합니다. 모든 자원은 오픈 파이썬 라이브러리를 통해 통합되어 접근 가능합니다. 우리는 선택된 데이터셋들에 대한 광범위한 실험을 수행하여, 가장 강력한 알고리즘조차 실제 데이터셋 분포 변화, 이질적 데이터의 다중 규모 모델링, 그리고 새로운 데이터 포인트에 대한 견고한 일반화 등 주요 치료제 도전 과제들을 해결하지 못함을 입증하였습니다. 우리는 TDC가 알고리즘적 및 과학적 진보를 촉진하고 기계 학습 모델의 개발, 검증 및 임상 및 의학적 구현으로의 전환을 크게 가속화할 수 있을 것으로 기대합니다. TDC는 https://tdcommons.ai에서 이용 가능한 오픈 사이언스 이니셔티브입니다.