Command Palette
Search for a command to run...
Die Yale University Hat MOSAIC Vorgeschlagen, Das Ein Team Von Über 2.000 KI-Chemieexperten Aufbaut Und so Eine Effiziente Spezialisierung Und Identifizierung Optimaler Synthesewege ermöglicht.

Die moderne synthetische Chemie steht vor einem zentralen Widerspruch zwischen dem rasanten Wissenszuwachs und der Effizienz seiner Anwendung und Transformation. Hunderttausende einschlägige Publikationen erscheinen jährlich, und das nutzbare Wissen über synthetische Chemie umfasst mittlerweile Millionen von Einträgen. Allerdings ist dieses Wissen größtenteils in Form unstrukturierter Texte über verschiedene Datenbanken verstreut und stark fragmentiert. Die traditionelle Literaturrecherche und manuelle Sichtung sind nicht nur zeitaufwendig und mühsam, sondern erschweren auch die systematische Erfassung von Reaktionstypen in verschiedenen Fachgebieten. Dadurch bleibt eine große Menge wertvoller, in der Literatur verborgener Informationen schwer zugänglich und kann nur schwer in ausführbare experimentelle Protokolle überführt werden.
Angesichts dieses Wissensmanagement-Dilemmas konzentriert sich die synthetische Praxis zunehmend darauf, wie sich vollständige experimentelle Verfahren effizient und mit hoher Reproduzierbarkeit entwickeln lassen. Diese Verfahren umfassen viele Schlüsselparameter wie die Auswahl der Reagenzien, die Kontrolle der Stöchiometrie, die Temperaturprogrammierung und die Nachbearbeitungsschritte.
derzeit,Die Entwicklung dieses Fachgebiets wird hauptsächlich durch zwei Aspekte eingeschränkt.Erstens stößt die Erfahrung von Experten angesichts des stetig wachsenden Reaktionsraums an ihre Grenzen, was bei interdisziplinären Syntheseaufgaben häufig zu hohen Kosten durch Versuch und Irrtum führt. Zweitens leidet die Anwendung allgemeiner Modelle in der Chemie trotz der rasanten Entwicklung künstlicher Intelligenz weiterhin unter unzureichender Zuverlässigkeit, Anfälligkeit für Fehlinterpretationen und fehlender Konfidenzbewertung, wodurch die Präzisionsanforderungen experimenteller Untersuchungen nicht erfüllt werden. Daher ist die Umwandlung des umfangreichen, fragmentierten chemischen Wissens in strukturierte, zuverlässige Syntheseanleitungen entscheidend, um die Effizienzengpässe des Fachgebiets zu überwinden.
In diesem ZusammenhangEin Forschungsteam der Yale University hat kürzlich das MOSAIC-Modell vorgeschlagen, das ein verallgemeinertes großes Sprachmodell in ein kollaboratives System umwandelt, das aus zahlreichen spezialisierten Chemieexperten besteht.Durch die effektive Unterdrückung von Modellillusionen mittels professioneller Arbeitsteilung ermöglicht es quantifizierbare Unsicherheitsbewertungen und realisiert die systematische Generierung von Reaktionsbeschreibungen bis hin zu vollständigen experimentellen Protokollen, was die Effizienz der wissenschaftlichen Forschung in Bereichen wie der Wirkstoffforschung und der Materialentwicklung erheblich verbessern dürfte.
Die entsprechenden Forschungsergebnisse mit dem Titel „Kollektive Intelligenz für KI-gestützte chemische Synthesen“ wurden in Nature veröffentlicht.

Papieradresse:
https://www.nature.com/articles/s41586-026-10131-4
Folgen Sie unserem offiziellen WeChat-Account und antworten Sie im Hintergrund mit „MOSAIC“, um das vollständige PDF zu erhalten.
Weitere Artikel zu den Grenzen der KI:
Auf Basis der Pistachio-Datenbank werden wir „KI-Chemieexperten“ mit ihren jeweiligen Stärken entwickeln.
Diese Untersuchung wurde mithilfe der Pistachio-Datenbank durchgeführt, einer kommerziellen, hochstrukturierten Wissensdatenbank für chemische Reaktionen, die hauptsächlich aus internationaler Patentliteratur stammt. Durch die systematische Extraktion und Standardisierung von Textbeschreibungen von Reaktanten, Produkten, Reagenzien, Lösungsmitteln, Ausbeuten und wichtigen Reaktionsschritten aus den Patenten kodiert die Datenbank diese Beschreibungen einheitlich in ein maschinenlesbares Format (z. B. die Zeichenkette „SMILES“).Anstatt den vollständigen Datensatz direkt zu verwenden, führte das Forschungsteam ein strenges Qualitätsprüfungsverfahren durch. Das Hauptkriterium war, dass die Reaktionsprotokolle detaillierte und nachvollziehbare Beschreibungen der experimentellen Vorgehensweise enthalten mussten.Anstatt nur die Zuordnungsbeziehung zwischen Reaktanten und Produkten abzubilden, stellt dies sicher, dass das zu trainierende Modell lernt, „wie die Reaktion erreicht werden kann“, und nicht nur, „was das Reaktionsergebnis ist“.
Die gefilterten Daten wurden mithilfe eines speziell entwickelten Kernel-Metrik-Netzwerks in 128-dimensionale reaktionsspezifische Fingerabdrücke transformiert. Diese digitale Repräsentation zielt darauf ab, die wesentlichen Transformationsmerkmale chemischer Reaktionen zu erfassen. Alle Fingerabdruckvektoren bilden zusammen ein „Reaktionsuniversum“, das einen umfangreichen Bereich chemischen Wissens repräsentiert. Basierend auf diesem Vektorraum wurde ein unüberwachter Voronoi-Clustering-Algorithmus (implementiert mit der FAISS-Bibliothek) eingesetzt, um ihn in 2.489 sich nicht überlappende, spezialisierte Regionen zu unterteilen. Jede Region gruppiert Reaktionstypen mit hochgradig ähnlichen chemischen Eigenschaften.
Letztendlich wurde der Antworttext innerhalb jeder Voronoi-Region verwendet, um ein spezielles Llama-3.1-8B-Instruct-Modell unabhängig feinabzustimmen.Dies führte zu 2.489 „KI-Chemieexperten“, von denen jeder seine eigenen Stärken hat.Der Wissensumfang und die Leistungsfähigkeit des gesamten MOSAIC-Frameworks werden grundlegend durch diesen patentzentrierten Trainingsdatensatz bestimmt. Dies erklärt auch, warum die Leistungsfähigkeit des Systems in einigen sich rasant entwickelnden Spitzenforschungsgebieten (wie der Photochemie) relativ begrenzt ist – diese Inhalte sind in bestehenden Patentdatenbanken noch nicht vollständig abgedeckt.
MOSAIC: Ein dezentrales, kollaboratives System, bestehend aus zahlreichen professionellen Chemieexperten.
Die zentrale Designidee des MOSAIC-Modells besteht darin, das universelle große Sprachmodell Llama-3.1-8B-instruct in ein dezentrales kollaboratives System umzuwandeln, das aus zahlreichen professionellen Chemieexperten besteht.Diese suchbasierte Architektur reduziert den Bedarf an Hardware-Ressourcen erheblich. Für das Training spezifischer Aufgaben-Teilmengen ist lediglich eine mittelgroße Rechenkonfiguration (z. B. 4 GPUs) erforderlich, ohne auf große Rechencluster angewiesen zu sein. Das System unterdrückt effektiv Modellillusionen durch einen Mechanismus zur Arbeitsteilung mit Experten und liefert quantifizierbare Unsicherheitsbewertungen. Gleichzeitig unterstützt es die dynamische Erweiterung um neue Experten, ohne dass das gesamte System neu trainiert werden muss. Dies bietet deutliche Vorteile hinsichtlich Flexibilität und Nachhaltigkeit.

Um die Rechen- und Koordinationsengpässe zu überwinden, mit denen große Sprachmodelle beim Training auf massiven Datensätzen konfrontiert sind, besteht MOSAIC aus drei aufeinander aufbauenden Komponenten:
Ähnlichkeitsmaß für Antworten:
Diese Studie entwickelte ein neuronales Netzwerk-basiertes nichtlineares Mapping (Kernel-Metrik-Netzwerk, KMN) zur Quantifizierung der Ähnlichkeit chemischer Reaktionen. Es transformiert SMILES-kodierte Reaktionen in 128-dimensionale reaktionsspezifische Fingerabdrücke (RSFPs), deren euklidische Distanz die Beziehungen zwischen Reaktionskategorien approximiert und somit die wesentlichen Transformationsmerkmale der Reaktionen erfasst.
Wissensraum-Clustering:
Unter Ausnutzung der effizienten Indexierungsfunktionen der FAISS-Bibliothek wird ein unüberwachtes Voronoi-Clustering auf dem RSFP-Vektorraum durchgeführt, wodurch dieser automatisch in 2.498 spezialisierte Regionen mit stark geclusterten chemischen Eigenschaften unterteilt wird, wobei jede Region einen spezifischen Bereich des chemischen Wissens repräsentiert.
Schulung von Domänenexperten:
Für jeden Cluster von Reaktionsdaten wird ein eigenes Expertenmodell feinabgestimmt. Die Studie verwendet eine zweistufige Trainingsstrategie: Zunächst wird das Basismodell anhand des gesamten Datensatzes feinabgestimmt. Anschließend wird das Fachwissen der jeweiligen Experten mithilfe der Daten aus jedem Cluster vertieft. Dadurch behalten die Experten ein allgemeines Verständnis der Chemie und verfügen gleichzeitig über fundiertes Fachwissen.
MOSAIC kodiert die Abfragereaktion zunächst als RSFP und verwendet anschließend FAISS, um schnell die zugehörige Voronoi-Region und den entsprechenden Experten zu finden. Beispielsweise ruft das System für eine Buchwald-Hartwig-Kupplungsreaktion eines chlorierten aromatischen Kohlenwasserstoffs einen Experten auf diesem Gebiet auf, um eine vollständige und verständliche Synthesevorschrift zu generieren.Experimentelle Überprüfungen zeigen, dass durch genaues Befolgen des Verfahrens das Zielprodukt mit einer Ausbeute von 96% erhalten werden kann.
MOSAIC erreichte eine TP3T-Komponentenabdeckung von 94,81 % und eine TP3T-Synthese-Erfolgsrate von 711 %.
Diese Studie bestätigte die umfassende Leistungsfähigkeit des MOSAIC-Modells durch ein mehrdimensionales Bewertungssystem. Sein Kernwert liegt in der Umwandlung großer Mengen an Literaturwissen in hochzuverlässige synthetische Intelligenz.
Im Hinblick auf Ertragsprognose und KernkomponentenidentifizierungDas MOSAIC-Modell ermöglicht die quantitative Vorhersage von Reaktionsausbeuten durch die Analyse des vollständigen Versuchsablaufs. Wie die Abbildung unten zeigt, korreliert der Mittelwert des vorhergesagten Intervalls nach Anwendung der Binning-Strategie signifikant mit dem Median der tatsächlichen Ausbeute (R² = 0,811). Das Modell identifiziert die wichtigsten Reaktionskomponenten (Reagenzien, Lösungsmittel) hervorragend.Nach Einbeziehung der Vorhersagen der drei besten Experten liegt die Gesamterfolgsquote bei der Identifizierung zumindest einiger der richtigen Komponenten bei 94,8%.Es ist bemerkenswert, dass selbst wenn die Vorhersagebedingungen nicht vollständig mit den Literaturangaben übereinstimmen, das Ergebnis oft eine chemisch realisierbare Alternative darstellt, die ein hohes Maß an professionellem Urteilsvermögen widerspiegelt.

In vergleichenden Tests von 12 wichtigen Reaktionen (Suzuki-Kupplung, Buchwald-Hartwig-Aminierung usw.), wie in der Abbildung unten dargestellt, übertrifft MOSAIC universelle Modelle wie ChatGPT-4o und Claude 3.5 hinsichtlich der Bereitstellung klarer und praktikabler Synthesehinweise. Dieser Vorteil ist besonders deutlich, da das Modell nur 8 Milliarden Parameter besitzt und die Effektivität der domänenspezifischen Feinabstimmung demonstriert. Noch wichtiger ist jedoch,MOSAIC überwindet die Probleme, die bei allgemeinen Modellen in Chemieaufgaben häufig auftreten, wie z. B. instabile Befolgung von Anweisungen und willkürliche Reaktionen, und liefert stabile und zuverlässige Ergebnisse.Dies ist für die eigentlichen Experimente von entscheidender Bedeutung.

Um die Praktikabilität, Vielseitigkeit und Zuverlässigkeit des vorgeschlagenen Frameworks zu bewerten, wurde in dieser Studie eine umfassende experimentelle Validierung durchgeführt. Dazu wurden präzise Vorhersagen fundamentaler Reaktionen in der modernen chemischen Synthese getroffen. Die Forscher konzentrierten sich auf breit anwendbare katalytische Reaktionen, die für die Entwicklung von Arzneimitteln und Materialien von entscheidender Bedeutung sind. Die durch Buchwald-Hartwig-Aminierungen gebildeten Kohlenstoff-Stickstoff-Bindungen sind in Arzneimittelmolekülen allgegenwärtig, und die Bedingungen für diese anspruchsvollen Reaktionen wurden präzise vorhergesagt. Es wurde eine effiziente Synthese von Wirkstoffgerüsten erreicht, die insbesondere bei Olefin-Transformationen von Bedeutung ist, welche für Anwendungen von Naturstoffen bis hin zu Funktionsmaterialien unerlässlich sind.
Darüber hinaus wurde die Praktikabilität des MOSAIC-Modells eindrucksvoll durch die erfolgreiche Synthese einer großen Anzahl neuartiger Verbindungen demonstriert.Von den 37 synthetisierten Zielverbindungen waren 35 bei der ersten Empfehlung des Modells erfolgreich, was einer Gesamterfolgsrate von 71% entspricht.Der Validierungsbereich umfasst alles von klassischen Kupplungsreaktionen bis hin zu selektiven Umwandlungen und beinhaltet eine innovative Fallstudie, die die Fähigkeit demonstriert, die Entwicklung neuartiger Azaindol-Cyclisierungsmethoden zu steuern.
Am wichtigsten ist, dass der Konfidenzindex (Abstand zum nächstgelegenen Expertenzentroid) innerhalb des Modells eine deutliche positive Korrelation mit der experimentellen Erfolgsrate aufweist: Die Erfolgsrate von Vorhersagen mit hoher Konfidenz (Abstand < 100) übersteigt 75%. Dies bietet Chemikern eine wertvolle quantitative Entscheidungshilfe und ermöglicht es ihnen, Ressourcen effektiv zwischen erfolgversprechenden Zielen und explorativen Versuchen aufzuteilen.
Die chemische Synthese tritt in eine neue Ära der präzisen, intelligenten Fertigung ein.
Im globalen Prozess der Förderung intelligenter chemischer Synthese arbeiten Wissenschaft und Industrie gemeinsam auf komplementären Wegen, um die gesamte Kette von der Molekülentdeckung bis zur Prozessproduktion neu zu gestalten.
Die universitäre Forschung gleicht der Pionierarbeit bei der Erforschung des Unbekannten; sie konzentriert sich darauf, die Grenzen der zugrundeliegenden Computertechnologie zu überwinden und innovative wissenschaftliche Forschungsparadigmen zu entwickeln.Forschern am MIT ist es auf clevere Weise gelungen, das für die Bilderzeugung verwendete "Diffusionsmodell" auf den Bereich der chemischen Reaktionen zu übertragen.Es ermöglicht die ultraschnelle Berechnung wichtiger Übergangszustandsstrukturen – Aufgaben, die normalerweise Tage dauern würden, werden in Sekunden erledigt – und es werden beispiellose mikroskopische Einblicke in Reaktionsvorhersagen mit atomarer Präzision von 0,08 Angström ermöglicht.
Das Team der Stanford University hat sich derweil der Aufgabe verschrieben, die Art und Weise, wie Forschung betrieben wird, grundlegend zu verändern.Das System baut ein KI-gesteuertes „virtuelles Labor“ auf, das in der Lage ist, selbstständig multidisziplinäre virtuelle Teams zu bilden.Koordiniert durch die KI des führenden Forschers, finden Kollaborationen und Debatten innerhalb von Sekunden statt. Dies führt zu innovativen Ideen, die konventionelle Ansätze in komplexen Themen wie der Impfstoffentwicklung übertreffen. Darüber hinaus hat die Forschung von Institutionen wie der Harvard University die Simulationsmöglichkeiten künstlicher Intelligenz auf makroskopischer Ebene erweitert. Ihr vorgeschlagenes einheitliches Framework ermöglicht präzise Simulationen komplexer ferroelektrischer Materialien mit Millionen von Atomen und bietet damit eine leistungsstarke digitale Grundlage für die Entwicklung funktionaler Materialien der nächsten Generation.
Im Vergleich zum Pioniergeist der Wissenschaft konzentriert sich die Unternehmensinnovation stärker darauf, modernste Algorithmen in Produktivität und Wettbewerbsfähigkeit umzusetzen und so reale Probleme zu lösen. Der deutsche Chemiekonzern BASF hat KI weltweit eingeführt und neben dem „KI-Chemiker-Copiloten“ zur Unterstützung von Forschung und Entwicklung auch …Durch 60% wurde der Entwicklungszyklus neuer Materialien deutlich verkürzt.Darüber hinaus ist KI tief in die Produktionsoptimierung, die Logistikplanung und die vorausschauende Wartung integriert, wodurch Effizienzsteigerungen entlang der gesamten Wertschöpfungskette vom Labor bis zur Fabrik erzielt werden.
Im Pharmabereich setzen Unternehmen wie Novartis mit Hauptsitz in der Schweiz KI umfassend ein. Durch intensive Kooperationen mit spezialisierten Unternehmen wie Isomorphic Labs und Schrödinger nutzen sie künstliche Intelligenz in jeder wichtigen Phase – von der Entdeckung neuer Zielstrukturen über die Wirkstoffentwicklung und Sicherheitsprognose bis hin zur Optimierung des Studiendesigns. Dadurch verbessern sie die Sicherheit und Erfolgsquote der Arzneimittelentwicklung signifikant.
Angesichts dieser bahnbrechenden Entwicklungen in Wissenschaft und Industrie wird die chemische Forschung – eine traditionelle Disziplin, die einst stark auf persönlicher Erfahrung und wiederholtem Versuch und Irrtum beruhte – grundlegend durch Daten und Algorithmen umgestaltet und bewegt sich stetig auf eine neue Ära präziser, vorhersagbarer, planbarer und automatisierter Wissenschaft zu. Von innovativen Medikamenten zur Bekämpfung von Krankheiten bis hin zu umweltfreundlichen Materialien, die zu einer nachhaltigen Entwicklung beitragen, schafft diese weitreichende Transformation der intelligenten chemischen Synthese beispiellose Kernkompetenzen, die uns helfen, die drängendsten Herausforderungen unserer Zeit zu bewältigen.
Referenzartikel:
1.http://edu.people.com.cn/n1/2025/0730/c1006-40532541.html
2.https://cen.acs.org/pharmaceuticals/drug-development/Q-Novartiss-biomedical-research-head/103/web/2025/01








