Exploration des alignements multi-granulaires basés sur le transport optimal pour la recherche texte-molécule

Le domaine de la bioinformatique a connu des progrès significatifs, rendant la tâche de recherche textuelle-moléculaire intermodale de plus en plus cruciale. Cette tâche se concentre sur la récupération précise des structures moléculaires à partir de descriptions textuelles, en alignant efficacement les descriptions textuelles et les molécules pour aider les chercheurs à identifier des candidats moléculaires appropriés. Cependant, de nombreuses approches existantes négligent les détails inhérents aux sous-structures moléculaires. Dans ce travail, nous présentons le modèle d'Alignements Multigrain basés sur le Transport Optimal (ORMA), une nouvelle approche qui facilite les alignements multigrain entre les descriptions textuelles et les molécules. Notre modèle comprend un encodeur de texte et un encodeur de molécules. L'encodeur de texte traite les descriptions textuelles pour générer des représentations au niveau des jetons (tokens) et des phrases, tandis que les molécules sont modélisées comme des graphes hiérarchiques hétérogènes, englobant des nœuds d'atomes, de motifs et de molécules pour extraire des représentations à ces trois niveaux. Une innovation clé d'ORMA est l'utilisation du Transport Optimal (OT) pour aligner les jetons avec les motifs, créant ainsi des représentations multijeton qui intègrent plusieurs alignements de jetons avec leurs motifs correspondants. De plus, nous utilisons l'apprentissage par contraste pour affiner les alignements intermodaux à trois échelles distinctes : jeton-atome, multijeton-motif et phrase-molécule, garantissant que les similarités entre les paires textuel-moléculaire correctement appariées soient maximisées tandis que celles des paires non appariées sont minimisées. À notre connaissance, c'est la première tentative d'explorer les alignements aux niveaux du motif et du multijeton. Les résultats expérimentaux sur les jeux de données ChEBI-20 et PCdes montrent que ORMA surpasse considérablement les modèles actuels d'état de l'art (SOTA).