Therapeutics Data Commons: 薬物発見および開発のための機械学習データセットとタスク

治療薬の機械学習は、革新と影響力の面で驚異的な機会を持つ新興分野です。しかし、この分野での進歩には、意味のある学習タスクの定式化とデータセットの慎重なキュレーションが必要です。本稿では、Therapeutics Data Commons (TDC) を紹介します。TDC は、治療薬に関連する全範囲にわたる機械学習を系統的にアクセスし評価する最初の統合プラットフォームです。現在までに、TDC には 22 の学習タスクにわたり、安全で効果的な医薬品の発見と開発をカバーする 66 の AI 対応データセットが含まれています。また、TDC は 33 のデータ関数と意味のあるデータ分割タイプ、23 のシステム的なモデル評価戦略、17 の分子生成オラクル(oracle)、および 29 の公開リーダーボードを提供するツールやコミュニティリソースのエコシステムも提供しています。すべてのリソースはオープン Python ライブラリを通じて統合され、アクセス可能です。私たちは選択されたデータセットに対して広範な実験を行い、最強のアルゴリズムでも主要な治療薬課題を解決できていないことを示しました。これらの課題には、実際のデータ分布シフト(distributional shifts)、非均質データの多スケールモデリング(multi-scale modeling of heterogeneous data)、および新しいデータポイントへの堅牢な一般化能力(robust generalization to novel data points)が含まれます。私たちは TDC がアルゴリズム的および科学的な進歩を促進し、機械学習モデルの開発、検証、そしてバイオメディカルや臨床実装への移行を大幅に加速できると考えています。TDC は https://tdcommons.ai で利用可能なオープンサイエンスイニシアチブです。