Therapeutics Data Commons : Jeux de données et tâches d'apprentissage automatique pour la découverte et le développement de médicaments

L'apprentissage automatique thérapeutique est un domaine émergent offrant des opportunités incroyables d'innovation et d'impact. Cependant, les progrès dans ce domaine nécessitent la formulation de tâches d'apprentissage pertinentes et une curation minutieuse des jeux de données. Ici, nous présentons Therapeutics Data Commons (TDC), la première plateforme unificatrice permettant d'accéder systématiquement et d'évaluer l'apprentissage automatique sur l'ensemble du spectre thérapeutique. À ce jour, le TDC comprend 66 jeux de données prêts pour l'IA répartis sur 22 tâches d'apprentissage et couvrant la découverte et le développement de médicaments sûrs et efficaces. Le TDC fournit également un écosystème d'outils et de ressources communautaires, incluant 33 fonctions de données et types de divisions de données significatives, 23 stratégies pour l'évaluation systématique des modèles, 17 oracles de génération moléculaire, et 29 classements publics. Toutes ces ressources sont intégrées et accessibles via une bibliothèque Python ouverte. Nous menons des expériences approfondies sur des jeux de données sélectionnés, démontrant que même les algorithmes les plus performants peinent à résoudre les défis clés en thérapeutique, notamment les décalages distributionnels réels dans les jeux de données, la modélisation multi-échelle de données hétérogènes, et la généralisation robuste à de nouveaux points de données. Nous prévoyons que le TDC peut faciliter les avancées algorithmiques et scientifiques et accélérer considérablement le développement, la validation et le passage à l'implémentation biomédicale et clinique des modèles d'apprentissage automatique. Le TDC est une initiative en science ouverte disponible à l'adresse https://tdcommons.ai.