APOLLO : Une approche d'entraînement optimisée pour le raisonnement numérique à long format

Le raisonnement numérique à longue forme en analyse financière vise à générer un programme de raisonnement permettant de calculer la réponse correcte à une question donnée. Les travaux précédents ont suivi un cadre de type récupérateur-générateur, dans lequel le récupérateur sélectionne les faits clés à partir d’un document long, et le générateur construit un programme de raisonnement à partir de ces faits récupérés. Toutefois, ces approches traitaient tous les faits de manière équivalente, sans tenir compte des contributions différentes des faits numériques par rapport aux faits non numériques. Par ailleurs, la cohérence du programme était ignorée durant l’entraînement supervisé, ce qui entraînait une précision d’entraînement plus faible et une diversité réduite. Pour résoudre ces problèmes, nous proposons APOLLO, une méthode améliorant le cadre de raisonnement numérique à longue forme. Concernant le récupérateur, nous introduisons une stratégie d’échantillonnage négatif consciente des nombres, afin de renforcer la capacité discriminante du modèle sur les faits numériques clés. Quant au générateur, nous concevons une stratégie d’apprentissage par renforcement fondée sur la cohérence, ainsi qu’une augmentation ciblée du programme basée sur la cohérence des résultats d’exécution du programme. Les résultats expérimentaux sur les classements FinQA et ConvFinQA confirment l’efficacité de notre méthode, qui atteint un nouveau record d’état de l’art.