Multimodaler Spektroskopischer Chemischer Multimodaler Spektroskopischer Datensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Multimodal Spectroscopic (Chemical Multimodal Spectroscopy) wurde 2024 von einem Forschungsteam von IBM Research, der Universität Zürich, der EPFL und NCCR Catalysis entwickelt. Die entsprechenden Ergebnisse der Studie sind „Entschlüsselung der Molekülstruktur: Ein multimodaler spektroskopischer Datensatz für die Chemie“, das von NeurIPS akzeptiert wurde.
Der Datensatz enthält simulierte 1H-NMR-, 13C-NMR-, HSQC-NMR-, Infrarot- und Massenspektrometrie-Spektraldaten (positive und negative Ionenmodi) von 790.000 Molekülen, die aus chemischen Reaktionen in Patentdaten extrahiert wurden. Der Kernwert dieses Datensatzes liegt in seiner Fähigkeit, Informationen aus mehreren Spektralmodalitäten zu integrieren und die von menschlichen Experten zur Analyse molekularer Strukturen verwendeten Methoden zu simulieren. Dadurch wird die Strukturanalyse automatisiert und der Prozess der molekularen Entdeckung von der Synthese bis zur Strukturbestimmung vereinfacht.
Bei der Erstellung des Datensatzes wurde die Komplementarität zwischen verschiedenen spektroskopischen Techniken berücksichtigt, beispielsweise der Kernspinresonanz (NMR), der Infrarotspektroskopie und der Massenspektrometrie, die unterschiedliche Einblicke in die Molekülstruktur, einschließlich des Vorhandenseins oder Fehlens funktioneller Gruppen, liefern können. Durch die Kombination dieser Informationen können Forscher ein tieferes Verständnis gewinnen, das für die Entwicklung von KI/ML-Modellen, die Informationen aus mehreren spektralen Modalitäten integrieren können, von entscheidender Bedeutung ist.
Darüber hinaus bietet der multimodale spektroskopische Datensatz auch einen Maßstab für die Bewertung von Aufgaben einzelner Modalitäten wie Strukturaufklärung, Spektralvorhersage von Zielmolekülen und Vorhersage funktioneller Gruppen. Diese Benchmarks helfen nicht nur bei der Bewertung der Leistung von Modellen, sondern geben auch klare Richtungen für zukünftige Forschungen vor.
