MoleculeNet : Un Benchmark pour l'Apprentissage Automatique Moléculaire

L'apprentissage automatique moléculaire a connu une maturation rapide ces dernières années. Des méthodes améliorées et la disponibilité de jeux de données plus importants ont permis aux algorithmes d'apprentissage automatique de faire des prédictions de plus en plus précises sur les propriétés moléculaires. Cependant, le progrès algorithmique a été limité par l'absence d'un banc d'essai standard pour comparer l'efficacité des méthodes proposées ; la plupart des nouveaux algorithmes sont évalués sur différents jeux de données, ce qui rend difficile l'évaluation de la qualité des méthodes proposées. Cette étude introduit MoleculeNet, un banc d'essai à grande échelle pour l'apprentissage automatique moléculaire. MoleculeNet rassemble plusieurs jeux de données publics, établit des métriques d'évaluation et propose des implémentations open-source de haute qualité de plusieurs méthodes de caractérisation moléculaire et d'apprentissage automatique précédemment proposées (publiées dans le cadre de la bibliothèque open source DeepChem). Les résultats des benchmarks MoleculeNet démontrent que les représentations apprises sont des outils puissants pour l'apprentissage automatique moléculaire et offrent généralement les meilleures performances. Cependant, cette conclusion est assortie de réserves. Les représentations apprises peinent encore à traiter des tâches complexes en cas de pénurie de données et lorsqu'il y a une classification très déséquilibrée. Pour les jeux de données mécaniques quantiques et biophysiques, l'utilisation de caractérisations conscientes des lois physiques peut être plus importante que le choix d'un algorithme d'apprentissage particulier.