TOMG-Bench : Évaluation des LLMs pour la génération de molécules ouverte basée sur le texte

Dans cet article, nous proposons le premier banc d'essai pour évaluer la capacité de génération de molécules en domaine ouvert des grands modèles linguistiques (LLMs) : le Text-based Open Molecule Generation Benchmark (TOMG-Bench). TOMG-Bench comprend un ensemble de données couvrant trois tâches principales : l'édition de molécules (MolEdit), l'optimisation de molécules (MolOpt) et la génération personnalisée de molécules (MolCustom). Chaque tâche contient trois sous-tâches, chacune comprenant 5 000 échantillons de test. Étant donné la complexité inhérente à la génération de molécules en domaine ouvert, nous avons également développé un système d'évaluation automatisé qui permet de mesurer à la fois la qualité et la précision des molécules générées. Notre évaluation exhaustive de 25 LLMs met en lumière les limites actuelles et les domaines potentiels d'amélioration dans la découverte guidée par le texte des molécules. De plus, avec l'aide d'OpenMolIns, un jeu de données spécialisé proposé pour résoudre les défis soulevés par TOMG-Bench, Llama3.1-8B a pu surpasser tous les LLMs généralistes open source, dépassant même GPT-3.5-turbo de 46,5 % sur TOMG-Bench. Nos codes et nos jeux de données sont disponibles via https://github.com/phenixace/TOMG-Bench.