Command Palette
Search for a command to run...
L'annotation automatique par augmentation améliore la traduction entre les molécules et le langage naturel
L'annotation automatique par augmentation améliore la traduction entre les molécules et le langage naturel
Zhiqiang Zhong Simon Sataa-Yu Larsen Haoyu Guo Tao Tang Kuangyu Zhou Davide Mottin
Résumé
Les avancées récentes en intelligence artificielle appliquée à la recherche biologique se concentrent sur l’intégration des données moléculaires avec le langage naturel afin d’accélérer la découverte de médicaments. Toutefois, la rareté d’annotations de haute qualité freine les progrès dans ce domaine. Ce papier présente LA3, un cadre d’augmentation automatique des annotations basé sur le langage, qui exploite les grands modèles linguistiques pour enrichir les jeux de données existants, améliorant ainsi l’entraînement des modèles d’IA. Nous démontrons l’efficacité de LA3 en construisant un jeu de données amélioré, LaChEBI-20, en réécrivant systématiquement les annotations des molécules issues d’un jeu de données établi. Ces nouvelles annotations conservent les informations moléculaires essentielles tout en offrant une plus grande variété de structures syntaxiques et de vocabulaire. En utilisant LaChEBI-20, nous entraînons LaMolT5, basé sur une architecture de référence, afin qu’il apprenne la correspondance entre les représentations moléculaires et les annotations enrichies.Les résultats expérimentaux sur la génération de novo de molécules à partir de texte et la description de molécules (molecule captioning) montrent que LaMolT5 surpasser les modèles de pointe. En particulier, l’intégration de LA3 permet d’obtenir des améliorations allant jusqu’à 301 % par rapport à l’architecture de référence. En outre, nous validons l’efficacité de LA3 dans des applications notables sur des tâches d’image, de texte et de graphe, confirmant ainsi sa polyvalence et son utilité.