Raisonnement multi-vues : apprentissage contrastif cohérent pour les problèmes mathématiques à mots

Le résolveur de problèmes mathématiques nécessite à la fois un raisonnement précis sur les relations entre les quantités mentionnées dans le texte et une génération fiable pour des équations diverses. Les méthodes actuelles basées sur la séquence vers arbre ou l'extraction de relations abordent cette tâche depuis une perspective fixe, ce qui les pousse à peiner à traiter simultanément des sémantiques complexes et des équations variées. Toutefois, la résolution humaine repose naturellement sur deux perspectives de raisonnement cohérentes : une approche descendante (top-down) et une approche ascendante (bottom-up), tout comme les équations mathématiques peuvent être exprimées sous plusieurs formes équivalentes : forme préfixée (pré-ordre) et forme postfixée (post-ordre). Nous proposons une méthode d'apprentissage contrastif multi-vue, garantissant une cohérence entre les perspectives, afin d’obtenir une cartographie plus complète du sens vers l’équation. Le processus global est décomposé en deux vues indépendantes mais cohérentes : la décomposition descendante et la construction ascendante. Ces deux raisonnements sont alignés à plusieurs niveaux de granularité pour assurer une cohérence, ce qui améliore à la fois la génération globale et le raisonnement précis. Des expériences menées sur plusieurs jeux de données dans deux langues montrent que notre approche surpasse significativement les méthodes de référence existantes, en particulier pour les problèmes complexes. Nous démontrons également qu’après alignement cohérent, la combinaison multi-vue parvient à intégrer les avantages des deux perspectives, produisant ainsi des résultats plus diversifiés tout en respectant strictement les lois mathématiques.