Automatische Annotationserweiterung steigert die Übersetzung zwischen Molekülen und natürlicher Sprache

Neuere Fortschritte in der KI für biologische Forschung konzentrieren sich darauf, molekulare Daten mit natürlicher Sprache zu integrieren, um die Arzneimittelentwicklung zu beschleunigen. Allerdings beschränkt die Knappheit hochwertiger Annotationen den Fortschritt in diesem Bereich. In diesem Artikel stellen wir LA$^3$ vor – einen auf Sprache basierenden Framework zur automatischen Erweiterung von Annotationen –, der große Sprachmodelle nutzt, um bestehende Datensätze zu erweitern und somit die Ausbildung von KI-Modellen zu verbessern. Wir demonstrieren die Wirksamkeit von LA$^3$ durch die Erstellung eines verbesserten Datensatzes, LaChEBI-20, bei dem wir die Annotationen von Molekülen aus einem etablierten Datensatz systematisch neu formulieren. Diese überarbeiteten Annotationen bewahren wesentliche molekulare Informationen bei, bieten jedoch vielfältigere Satzstrukturen und eine breitere Vokabularvielfalt. Unter Verwendung von LaChEBI-20 trainieren wir LaMolT5 auf Basis einer Benchmark-Architektur, um die Abbildung zwischen molekularen Darstellungen und erweiterten Annotationen zu lernen.Experimentelle Ergebnisse bei der textbasierten de-novo-Molekülgenerierung und der Molekülbeschreibung (Molecule Captioning) zeigen, dass LaMolT5 state-of-the-art-Modelle übertrifft. Insbesondere führt die Integration von LA$^3$ zu Verbesserungen von bis zu 301 % gegenüber der Benchmark-Architektur. Darüber hinaus validieren wir die Wirksamkeit von LA$^3$ in bedeutenden Anwendungen auf Bild-, Text- und Graph-Aufgaben, was dessen Vielseitigkeit und Nützlichkeit unterstreicht.