9日前
ChemBERTa-2:化学基盤モデルへの道
Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath Ramsundar

要約
GPT-3をはじめとする大規模な事前学習モデルは、自己教師学習を活用して重要な表現を学習することで、現代の自然言語処理に大きな影響を与えている。これらの表現は、さまざまな下流タスクに対して容易に微調整(fine-tuning)可能である。本研究では、SMILES記法を用いた化学言語の枠組みに基づいて、化学分野向けの基礎モデル「ChemBERTa-2」を構築することで、このような進展を分子機械学習へと転移する可能性を検討した。分子予測タスクにおけるラベル付きデータは通常限られているものの、SMILES文字列のライブラリは容易に入手可能である。本研究では、ChemBERTaの事前学習プロセスを最適化することにより、その性能を向上させた。特に、ハイパーパラメータの変更と事前学習データセットのサイズ(PubChemから得た最大7700万化合物まで)を変化させながら、多タスク学習と自己教師学習の事前学習手法を比較した。知られている限り、7700万化合物からなるデータセットは、現在までに分子分野の事前学習に使用された最大規模のデータセットの一つである。その結果、事前学習の改善により、MoleculeNetベンチマークスイートにおいて既存の最先端アーキテクチャと同等の性能を達成できることを確認した。さらに、事前学習の向上が下流タスクにおける性能向上にどの程度寄与するかを分析した。