HyperAIHyperAI

Command Palette

Search for a command to run...

TOMG-Bench : Évaluation des LLMs pour la génération de molécules ouverte basée sur le texte

Jiatong Li Junxian Li Yunqing Liu Dongzhan Zhou Qing Li

Résumé

Dans cet article, nous proposons le premier banc d'essai pour évaluer la capacité de génération de molécules en domaine ouvert des grands modèles linguistiques (LLMs) : le Text-based Open Molecule Generation Benchmark (TOMG-Bench). TOMG-Bench comprend un ensemble de données couvrant trois tâches principales : l'édition de molécules (MolEdit), l'optimisation de molécules (MolOpt) et la génération personnalisée de molécules (MolCustom). Chaque tâche contient trois sous-tâches, chacune comprenant 5 000 échantillons de test. Étant donné la complexité inhérente à la génération de molécules en domaine ouvert, nous avons également développé un système d'évaluation automatisé qui permet de mesurer à la fois la qualité et la précision des molécules générées. Notre évaluation exhaustive de 25 LLMs met en lumière les limites actuelles et les domaines potentiels d'amélioration dans la découverte guidée par le texte des molécules. De plus, avec l'aide d'OpenMolIns, un jeu de données spécialisé proposé pour résoudre les défis soulevés par TOMG-Bench, Llama3.1-8B a pu surpasser tous les LLMs généralistes open source, dépassant même GPT-3.5-turbo de 46,5 % sur TOMG-Bench. Nos codes et nos jeux de données sont disponibles via https://github.com/phenixace/TOMG-Bench.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TOMG-Bench : Évaluation des LLMs pour la génération de molécules ouverte basée sur le texte | Articles | HyperAI