Eigenschaftsverstärktes Anweisungstuning für die mehrfache Molekülerzeugung mit großen Sprachmodellen

Große Sprachmodelle (LLMs) werden in verschiedenen Aufgaben der natürlichen Sprachverarbeitung wie Fragebeantwortung und maschinelle Übersetzung weit verbreitet eingesetzt. Allerdings ist die Leistung bei Molekülgenerierungsaufgaben aufgrund des Mangels an etikettierten Daten und der Schwierigkeit der manuellen Annotation von biochemischen Eigenschaften noch begrenzt, insbesondere bei Aufgaben mit mehreren Eigenschaftsrestriktionen. In dieser Arbeit stellen wir ein zweistufiges Framework namens PEIT (Property Enhanced Instruction Tuning) vor, um LLMs für molekülbezogene Aufgaben zu verbessern. Im ersten Schritt verwenden wir textuelle Beschreibungen, SMILES und biochemische Eigenschaften als multimodale Eingaben, um ein Modell namens PEIT-GEN durch die Anpassung multimodaler Repräsentationen zur Synthese von Anweisungsdaten vorzubereiten. Im zweiten Schritt feinjustieren wir bestehende Open-Source-LLMs mit den synthetisierten Daten; das resultierende PEIT-LLM kann Molekülabbildungen, textbasierte Molekülgenerierung, Vorhersage molekularer Eigenschaften sowie unsere neu vorgeschlagenen Multi-Eigenschafts-Molekülgenerierungsaufgaben bearbeiten. Experimentelle Ergebnisse zeigen, dass unser vorgefertigtes PEIT-GEN in der Molekülabbildung besser abschneidet als MolT5 und BioT5, was eine gute Anpassung der Modalitäten zwischen textuellen Beschreibungen, Strukturen und biochemischen Eigenschaften beweist. Darüber hinaus zeigt PEIT-LLM vielversprechende Verbesserungen bei der Multi-Eigenschafts-Molekülgenerierung, was die Skalierbarkeit des PEIT-Frameworks für verschiedene molekulare Aufgaben unter Beweis stellt. Wir veröffentlichen den Code, die erstellten Anweisungsdaten und die Modellauscheckpunkte unter https://github.com/chenlong164/PEIT.