HyperAIHyperAI
il y a 2 jours

Raisonneur de diffusion guidé par des contraintes pour l'apprentissage neuro-symbole

Xuan Zhang, Zhijian Zhou, Weidi Xu, Yanting Miao, Chao Qu, Yuan Qi
Raisonneur de diffusion guidé par des contraintes pour l'apprentissage neuro-symbole
Résumé

Permettre aux réseaux neuronaux d’apprendre des contraintes logiques complexes et de réaliser un raisonnement symbolique constitue un défi crucial. Pour combler cet écart, il est souvent nécessaire de guider la distribution de sortie du réseau neuronal afin de la rapprocher des contraintes symboliques. Bien que les modèles de diffusion aient démontré une capacité générative remarquable dans divers domaines, nous exploitons ici leur architecture puissante pour effectuer un apprentissage neuro-symbolique et résoudre des énigmes logiques. Notre pipeline basé sur la diffusion repose sur une stratégie d’entraînement en deux étapes : la première vise à développer des capacités de raisonnement fondamentales, tandis que la seconde met l’accent sur l’apprentissage systématique des contraintes logiques. Pour imposer des contraintes rigides sur les sorties du réseau neuronal lors de la deuxième étape, nous formulons le raisonneur par diffusion comme un processus de décision markovien (MDP) et le fine-tunons de manière innovante à l’aide d’un algorithme amélioré d’optimisation de politique proche (PPO). Nous utilisons un signal de récompense basé sur des règles, dérivé de la cohérence logique des sorties du réseau, et adoptons une stratégie souple pour optimiser la politique du raisonneur par diffusion. Nous évaluons notre méthode sur plusieurs benchmarks classiques de raisonnement symbolique, notamment le Sudoku, les labyrinthes, la recherche de chemins et l’apprentissage de préférences. Les résultats expérimentaux montrent que notre approche atteint une précision exceptionnelle ainsi qu’une cohérence logique remarquable parmi les réseaux neuronaux.