Text2Mol : Récupération croisée de molécules à l'aide de requêtes en langage naturel

Nous proposons une nouvelle tâche, Text2Mol, visant à récupérer des molécules à partir de descriptions en langage naturel. Le langage naturel et les molécules codent l’information de manières très différentes, ce qui donne lieu à un problème passionnant mais difficile : intégrer ces deux modalités radicalement distinctes. Bien qu’un certain nombre de travaux aient été menés sur la récupération basée sur le texte et celle basée sur la structure, cette nouvelle tâche exige une intégration plus directe entre les molécules et le langage naturel. En outre, on peut considérer ce problème comme un cas particulièrement délicat de récupération multilingue en traitant les molécules comme une « langue » possédant une grammaire très particulière. Nous construisons un jeu de données apparié comprenant des molécules et leurs descriptions textuelles correspondantes, que nous utilisons pour apprendre un espace d’encodage sémantique commun aligné, adapté à la récupération. Nous étendons cette approche pour concevoir un modèle basé sur une attention cross-modale, destiné à améliorer la reproductibilité et le reranking, en interprétant les attentes comme des règles d’association. Nous utilisons également une méthode d’ensemble pour combiner nos différentes architectures, ce qui améliore significativement les résultats, passant du MRR de 0,372 à 0,499. Cette nouvelle approche multimodale ouvre une perspective nouvelle pour résoudre des problèmes liés à la compréhension de la littérature chimique et au apprentissage automatique moléculaire.