L'annotation automatique par augmentation améliore la traduction entre les molécules et le langage naturel

Les avancées récentes en intelligence artificielle appliquée à la recherche biologique se concentrent sur l’intégration des données moléculaires avec le langage naturel afin d’accélérer la découverte de médicaments. Toutefois, la rareté d’annotations de haute qualité freine les progrès dans ce domaine. Ce papier présente LA$^3$, un cadre d’augmentation automatique des annotations basé sur le langage, qui exploite les grands modèles linguistiques pour enrichir les jeux de données existants, améliorant ainsi l’entraînement des modèles d’IA. Nous démontrons l’efficacité de LA$^3$ en construisant un jeu de données amélioré, LaChEBI-20, en réécrivant systématiquement les annotations des molécules issues d’un jeu de données établi. Ces nouvelles annotations conservent les informations moléculaires essentielles tout en offrant une plus grande variété de structures syntaxiques et de vocabulaire. En utilisant LaChEBI-20, nous entraînons LaMolT5, basé sur une architecture de référence, afin qu’il apprenne la correspondance entre les représentations moléculaires et les annotations enrichies.Les résultats expérimentaux sur la génération de novo de molécules à partir de texte et la description de molécules (molecule captioning) montrent que LaMolT5 surpasser les modèles de pointe. En particulier, l’intégration de LA$^3$ permet d’obtenir des améliorations allant jusqu’à 301 % par rapport à l’architecture de référence. En outre, nous validons l’efficacité de LA$^3$ dans des applications notables sur des tâches d’image, de texte et de graphe, confirmant ainsi sa polyvalence et son utilité.