Übersetzung zwischen Molekülen und natürlicher Sprache

Wir stellen MolT5 vor – ein selbstüberwachtes Lernframework zur Vortrainierung von Modellen auf einer großen Menge an nicht gekennzeichneten natürlichsprachlichen Texten und Molekülzeichenketten. MolT5 ermöglicht es, neue, nützliche und anspruchsvolle Analogien zu traditionellen Vision-Sprache-Aufgaben zu schaffen, wie z.B. die Beschreibung von Molekülen (Molekülkaptionierung) und die textbasierte de-novo-Molekülerzeugung (insgesamt: Übersetzung zwischen Molekülen und Sprache), die wir hier erstmals untersuchen. Da MolT5 Modelle auf mono-modalen Daten vortrainiert, hilft es, das Problem der Datenknappheit im Chemiebereich zu überwinden. Darüber hinaus betrachten wir mehrere Metriken, darunter eine neue metrik basierend auf multimodalen Einbettungen, um die Aufgaben der Molekülkaptionierung und der textbasierten Molekülerzeugung zu bewerten. Unsere Ergebnisse zeigen, dass MolT5-basierte Modelle in der Lage sind, Ausgaben sowohl in Form von Molekülen als auch Kaptionen zu generieren, die in vielen Fällen hoher Qualität sind.