6 个月前

多任务学习

Walid Ahmad Elana Simon Seyone Chithrananda Gabriel Grand Bharath Ramsundar

摘要

大型预训练模型（如GPT-3）通过利用自监督学习，成功捕捉到具有代表性的语言表征，显著推动了现代自然语言处理的发展，使得这些表征能够高效地微调至多种下游任务。本文探讨了将此类进展迁移至分子机器学习领域的可能性，构建了一个基于SMILES语言的化学基础模型——ChemBERTa-2。尽管分子预测任务中的标注数据通常十分稀缺，但SMILES字符串的大型数据库却广泛可得。在本研究中，我们在ChemBERTa的基础上优化了预训练流程，通过调整超参数并系统评估不同预训练数据集规模（最大达PubChem中的7700万种化合物）下的多任务学习与自监督学习策略。据我们所知，该7700万化合物的数据集是迄今用于分子预训练的最大规模数据集之一。实验结果表明，得益于上述预训练优化，ChemBERTa-2在MoleculeNet基准测试套件上的表现已达到当前最先进模型的水平。此外，我们进一步分析了预训练性能的提升在多大程度上可转化为下游任务性能的改善。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Walid Ahmad Elana Simon Seyone Chithrananda Gabriel Grand Bharath Ramsundar

摘要

大型预训练模型（如GPT-3）通过利用自监督学习，成功捕捉到具有代表性的语言表征，显著推动了现代自然语言处理的发展，使得这些表征能够高效地微调至多种下游任务。本文探讨了将此类进展迁移至分子机器学习领域的可能性，构建了一个基于SMILES语言的化学基础模型——ChemBERTa-2。尽管分子预测任务中的标注数据通常十分稀缺，但SMILES字符串的大型数据库却广泛可得。在本研究中，我们在ChemBERTa的基础上优化了预训练流程，通过调整超参数并系统评估不同预训练数据集规模（最大达PubChem中的7700万种化合物）下的多任务学习与自监督学习策略。据我们所知，该7700万化合物的数据集是迄今用于分子预训练的最大规模数据集之一。实验结果表明，得益于上述预训练优化，ChemBERTa-2在MoleculeNet基准测试套件上的表现已达到当前最先进模型的水平。此外，我们进一步分析了预训练性能的提升在多大程度上可转化为下游任务性能的改善。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供