Multimodal Spectroscopic(化学多模光谱)由来自 IBM Research 、苏黎世大学、 EPFL 和 NCCR Catalysis 的研究团队于 2024 年创建,相关论文成果为「Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry」,已被 NeurIPS 接受。
该数据集包含了从专利数据中的化学反应中提取的 79 万种分子的模拟 1H-NMR 、 13C-NMR 、 HSQC-NMR 、红外和质谱(正负离子模式)光谱数据。这个数据集的核心价值在于其能够整合多种光谱模态的信息,模拟人类专家分析分子结构的方法,从而有望自动化结构解析,简化从合成到结构确定的分子发现流程。
该数据集的构建考虑到了不同光谱技术之间的互补性,如核磁共振 (NMR) 、红外光谱和质谱,这些技术可以提供关于分子结构的不同视角,包括官能团的存在或缺失。通过结合这些信息,研究人员可以获得更深入的理解,这对于开发能够整合多种光谱模态信息的 AI/ML 模型至关重要。
此外,Multimodal Spectroscopic 数据集还提供了用于评估单一模态任务的基准,例如结构解析、目标分子的光谱预测和官能团预测。这些基准测试不仅有助于评估模型的性能,也为未来的研究提供了明确的方向。
做种 1
下载中 0
已完成 7
总下载 16