HyperAIHyperAI
vor 2 Monaten

Erkundung optimaler transportbasierter multi-granularer Ausrichtungen für die Text-Molekülrückgewinnung

Zijun Min; Bingshuai Liu; Liang Zhang; Jia Song; Jinsong Su; Song He; Xiaochen Bo
Erkundung optimaler transportbasierter multi-granularer Ausrichtungen für die Text-Molekülrückgewinnung
Abstract

Das Gebiet der Bioinformatik hat erhebliche Fortschritte gemacht, wodurch die Aufgabe der modalitätsübergreifenden Text-Molekül-Retrieval zunehmend wichtig geworden ist. Diese Aufgabe konzentriert sich darauf, Molekülstrukturen auf Grundlage textbasierter Beschreibungen präzise zu retrivieren, indem sie textuelle Beschreibungen und Moleküle effektiv ausrichten, um Forschern bei der Identifikation geeigneter molekularer Kandidaten zu helfen. Viele bestehende Ansätze ignorieren jedoch die Details, die in den Unterstrukturen von Molekülen enthalten sind. In dieser Arbeit stellen wir das Modell für optimale transportbasierte mehrstufige Ausrichtungen (Optimal TRansport-based Multi-grained Alignments Model, ORMA) vor, einen neuen Ansatz, der eine mehrstufige Ausrichtung zwischen textuellen Beschreibungen und Molekülen ermöglicht. Unser Modell verfügt über einen Textencoder und einen MoleküLEncoder. Der Textencoder verarbeitet textuelle Beschreibungen, um sowohl token-basierte als auch satzbasierte Repräsentationen zu generieren, während Moleküle als hierarchische heterogene Graphen modelliert werden, die Atom-, Motiv- und Molekülnodes umfassen, um Repräsentationen auf diesen drei Ebenen zu extrahieren. Ein wesentlicher Innovationsaspekt des ORMA-Modells ist die Anwendung des Optimal Transport (OT), um Tokens mit Motiven auszurichten und mehrtoken-basierte Repräsentationen zu erstellen, die mehrere Tokenausrichtungen mit ihren entsprechenden Motiven integrieren. Zudem nutzen wir kontrastives Lernen, um die Ausrichtung auf drei unterschiedlichen Skalen zu verfeinern: Token-Atom, Mehrtoken-Motiv und Satz-Molekül. Dies stellt sicher, dass die Ähnlichkeiten zwischen korrekt zugeordneten Text-Molekül-Paaren maximiert werden, während die Ähnlichkeiten von unzugeordneten Paaren minimiert werden. Nach unserem Wissen ist dies der erste Versuch, Ausrichtungen sowohl auf Motivebene als auch auf Mehrtoken-Ebene zu erforschen. Experimentelle Ergebnisse anhand der Datensätze ChEBI-20 und PCdes zeigen, dass ORMA erheblich besser abschneidet als existierende state-of-the-art (SOTA) Modelle.

Erkundung optimaler transportbasierter multi-granularer Ausrichtungen für die Text-Molekülrückgewinnung | Neueste Forschungsarbeiten | HyperAI