HyperAIHyperAI
vor 2 Monaten

Moleküldiscovery durch Large Language Models für die Molekül-Beschreibungstranslation stärken: Eine ChatGPT-Perspektive

Jiatong Li; Yunqing Liu; Wenqi Fan; Xiao-Yong Wei; Hui Liu; Jiliang Tang; Qing Li
Moleküldiscovery durch Large Language Models für die Molekül-Beschreibungstranslation stärken: Eine ChatGPT-Perspektive
Abstract

Die Entdeckung von Molekülen spielt eine entscheidende Rolle in verschiedenen wissenschaftlichen Bereichen und fördert die Entwicklung maßgeschneiderter Materialien und Medikamente. Die meisten derzeitigen Methoden hängen jedoch stark von Fachexperten ab, erfordern hohe Rechenkosten oder leiden unter suboptimaler Leistung. Im Gegensatz dazu haben große Sprachmodelle (LLMs) wie ChatGPT aufgrund ihrer starken Fähigkeiten im Bereich der natürlichsprachlichen Verarbeitung, Generalisierung und Kontextlernen (ICL) bemerkenswerte Leistungen in verschiedenen multimodalen Aufgaben gezeigt, was neue Möglichkeiten für die Fortschritte in der Moleküldiscovery bietet. Trotz einiger früherer Arbeiten, die versucht haben, LLMs in dieser Aufgabe einzusetzen, bleiben der Mangel an domänenbezogenen Korpora und die Schwierigkeiten bei der Schulung spezialisierter LLMs Herausforderungen. In dieser Arbeit schlagen wir einen neuen LLM-basierten Ansatz (MolReGPT) für die Übersetzung zwischen Molekülen und Textbeschreibungen vor. Dabei wird ein Paradigma des kontextbasierten Few-Shot-Lernens für Moleküle eingeführt, um Moleküldiscovery mit LLMs wie ChatGPT zu unterstützen, ohne dass diese domänenbezogene Vortrainings- oder Feinabstimmungsschritte durchlaufen müssen. MolReGPT nutzt das Prinzip der molekularen Ähnlichkeit, um ähnliche Moleküle und deren Textbeschreibungen aus einer lokalen Datenbank abzurufen, sodass LLMs das Task-Wissen aus Kontextbeispielen lernen können. Wir evaluieren die Effektivität von MolReGPT bei der Übersetzung zwischen Molekülen und Textbeschreibungen, einschließlich der molekularen Verarbeitung und textbasierten Molekülgenerierung. Die experimentellen Ergebnisse zeigen, dass MolReGPT im Vergleich zu feinabgestimmten Modellen besser abschneidet als MolT5-base und vergleichbar gut ist wie MolT5-large, ohne zusätzliche Trainingsschritte durchzuführen. Nach unserem Wissen ist MolReGPT die erste Arbeit, die LLMs durch kontextbasiertes Lernen zur Übersetzung zwischen Molekülen und Textbeschreibungen einsetzt, um den Fortschritt in der Moleküldiscovery zu fördern. Unsere Arbeit erweitert den Anwendungsbereich von LLMs und bietet zudem ein neues Paradigma für die Entdeckung und Gestaltung von Molekülen.

Moleküldiscovery durch Large Language Models für die Molekül-Beschreibungstranslation stärken: Eine ChatGPT-Perspektive | Neueste Forschungsarbeiten | HyperAI