要約
計算化学分野は、機械学習(ML)技術の導入により著しい進化を遂げてきた。その潜在能力が分野を変革する可能性を秘めている一方で、研究者たちは、最適なアルゴリズムの選定の複雑さ、データ前処理プロセスの自動化の難しさ、適応型特徴量工学の必要性、および異なるデータセット間でのモデル性能の一貫性の確保といった課題に直面している。こうした課題に正面から取り組む形で登場したのが、自動機械学習(AutoML)ツール「DeepMol」である。DeepMolは、MLパイプラインにおける重要なステップを自動化することで、特定の分子性質・活性予測問題に対して、最も効果的なデータ表現、前処理手法、モデル構成を迅速かつ自動的に同定する。22のベンチマークデータセットにおいて、DeepMolは、時間のかかる特徴量工学やモデル設計・選定を要する従来の手法と比較しても、競争力のあるパイプラインを達成した。計算化学分野に特化して開発された初期のAutoMLツールの一つとして、DeepMolは、オープンソースのコード、詳細なチュートリアル、包括的なドキュメント、および実世界の応用例を、https://github.com/BioSystemsUM/DeepMol および https://deepmol.readthedocs.io/en/latest/ にて公開している点で際立っている。計算化学におけるAutoMLという画期的な機能を導入したことで、DeepMolは本分野における先駆的かつ最先端のツールとして確立された。