HyperAIHyperAI

Command Palette

Search for a command to run...

Un Agent d'apprentissage in-situ pour la démonstration formelle de théorèmes

Amitayush Thakur George Tsoukalas Yeming Wen Jimmy Xin Swarat Chaudhuri

Résumé

Nous présentons un agent d'apprentissage in-context pour la démonstration formelle de théorèmes dans des environnements tels que Lean et Coq. Les modèles actuellement les plus performants pour ce problème sont entraînés sur des données de preuves spécifiques à chaque environnement. À l'inverse, notre approche, appelée COPRA, sollicite répétitivement un modèle de langage massif à haute capacité et généraliste (GPT-4) afin qu'il propose des applications de tactiques au sein d'une recherche arrière (backtracking) étatique. Les tactiques proposées sont exécutées dans l'environnement de preuve sous-jacent. Les retours générés par l'exécution sont utilisés pour construire le prompt de la requête suivante, en combinant des informations sélectionnées de l'historique de recherche et des lemmes récupérés depuis une base de données externe. Nous évaluons notre implémentation de COPRA sur le benchmark miniF2F pour Lean ainsi que sur un ensemble de tâches Coq issues du projet CompCert. Sur ces benchmarks, COPRA surpasse significativement les appels peu nombreux (few-shot) de GPT-4. Elle se compare également favorablement aux approches basées sur l'entraînement sur mesure, dépassant ReProver, une approche entraînée sur mesure d'état de l'art pour Lean, en termes de métrique pass@1. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/trishullab/copra.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp