LDMol: Ein Text-zu-Molekül-Diffusionsmodell mit strukturell informativem latenten Raum übertrifft AR-Modelle

Mit dem Aufkommen von Diffusionsmodellen als führendes Generierungsmodell haben viele Forscher Molekülgenerierungstechniken mit bedingten Diffusionsmodellen vorgeschlagen. Allerdings stellt die unvermeidliche Diskretion eines Moleküls eine Herausforderung dar, da es schwierig ist, für ein Diffusionsmodell rohe Daten mit hochkomplexen Bedingungen wie natürlicher Sprache zu verbinden. Um dieses Problem zu lösen, stellen wir hier ein neues latentes Diffusionsmodell vor, das LDMol genannt wird und für textbedingte Molekülgenerierung entwickelt wurde. Indem wir erkennen, dass eine geeignete Design der latenten Raumstruktur entscheidend für die Leistung des Diffusionsmodells ist, verwenden wir eine kontrastive Lernstrategie, um einen neuen Merkmalsraum aus Textdaten zu extrahieren, der die einzigartigen Eigenschaften der Molekülstruktur abbildet. Experimente zeigen, dass LDMol die bestehenden autoregressiven Baseline-Modelle im Benchmark für Text-zu-Molekül-Generierung übertrifft und damit zu den ersten Diffusionsmodellen gehört, die autoregressive Modelle bei der Generierung von textuellen Daten durch eine bessere Wahl des latenten Bereichs übertreffen. Darüber hinaus demonstrieren wir, dass LDMol auf nachgelagerte Aufgaben wie Molekül-zu-Text-Retrieval und textgeführte Moleküledition angewendet werden kann, was seine Vielseitigkeit als Diffusionsmodell unterstreicht.