Command Palette
Search for a command to run...
Automatische Annotationserweiterung steigert die Übersetzung zwischen Molekülen und natürlicher Sprache
Automatische Annotationserweiterung steigert die Übersetzung zwischen Molekülen und natürlicher Sprache
Zhiqiang Zhong Simon Sataa-Yu Larsen Haoyu Guo Tao Tang Kuangyu Zhou Davide Mottin
Zusammenfassung
Neuere Fortschritte in der KI für biologische Forschung konzentrieren sich darauf, molekulare Daten mit natürlicher Sprache zu integrieren, um die Arzneimittelentwicklung zu beschleunigen. Allerdings beschränkt die Knappheit hochwertiger Annotationen den Fortschritt in diesem Bereich. In diesem Artikel stellen wir LA3 vor – einen auf Sprache basierenden Framework zur automatischen Erweiterung von Annotationen –, der große Sprachmodelle nutzt, um bestehende Datensätze zu erweitern und somit die Ausbildung von KI-Modellen zu verbessern. Wir demonstrieren die Wirksamkeit von LA3 durch die Erstellung eines verbesserten Datensatzes, LaChEBI-20, bei dem wir die Annotationen von Molekülen aus einem etablierten Datensatz systematisch neu formulieren. Diese überarbeiteten Annotationen bewahren wesentliche molekulare Informationen bei, bieten jedoch vielfältigere Satzstrukturen und eine breitere Vokabularvielfalt. Unter Verwendung von LaChEBI-20 trainieren wir LaMolT5 auf Basis einer Benchmark-Architektur, um die Abbildung zwischen molekularen Darstellungen und erweiterten Annotationen zu lernen.Experimentelle Ergebnisse bei der textbasierten de-novo-Molekülgenerierung und der Molekülbeschreibung (Molecule Captioning) zeigen, dass LaMolT5 state-of-the-art-Modelle übertrifft. Insbesondere führt die Integration von LA3 zu Verbesserungen von bis zu 301 % gegenüber der Benchmark-Architektur. Darüber hinaus validieren wir die Wirksamkeit von LA3 in bedeutenden Anwendungen auf Bild-, Text- und Graph-Aufgaben, was dessen Vielseitigkeit und Nützlichkeit unterstreicht.