Mol2Lang-VLM : Modèles pré-entraînés de langage génératifs guidés par la vision et le texte pour l'avancement de la génération de légendes de molécules par fusion multimodale

Cet article présente Mol2Lang-VLM, une méthode améliorée visant à affiner les modèles pré-entraînés de langage génératifs pour la génération de légendes moléculaires en exploitant des caractéristiques multimodales afin d’obtenir une génération de légendes plus précise. Notre approche exploite les blocs encodeur et décodeur de l’architecture basée sur le Transformer en introduisant trois sous-couches supplémentaires dans chacun d’eux. Plus précisément, nous intégrons des sous-couches dans l’encodeur afin de fusionner les caractéristiques provenant des chaînes SELFIES et des images moléculaires, tandis que le décodeur fusionne les caractéristiques issues des chaînes SMILES et de leurs descriptions correspondantes. En outre, nous utilisons une attention multi-têtes croisée au lieu de l’attention multi-têtes classique, permettant au décodeur de s’attarder sur la sortie de l’encodeur, et ainsi intégrer efficacement les informations contextuelles encodées pour une génération de légendes plus performante et plus précise. L’évaluation des performances sur les jeux de données de référence CheBI-20 et L+M-24 démontre l’avantage de Mol2Lang-VLM, qui atteint une précision et une qualité supérieures dans la génération de légendes par rapport aux méthodes existantes. Notre code et les données prétraitées sont disponibles à l’adresse suivante : https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/.