APOLLO: Ein optimierter Trainingsansatz für langformige numerische Schlussfolgerungen

Langform-Zahlenschlussfolgerung in der Finanzanalyse zielt darauf ab, einen Schlussfolgerungsprogramm zu generieren, um die korrekte Antwort auf eine gegebene Frage zu berechnen. Frühere Ansätze folgten einem Retriever-Generator-Framework, bei dem der Retriever relevante Fakten aus einem langen Dokument auswählt und der Generator basierend auf den abgerufenen Fakten ein Schlussfolgerungsprogramm generiert. Allerdings wurden dabei alle Fakten gleich behandelt, ohne die unterschiedlichen Beiträge von Fakten mit und ohne Zahlen zu berücksichtigen. Gleichzeitig wurden Programm-Konsistenzkriterien im Rahmen überwachter Trainingsprozesse vernachlässigt, was zu einer geringeren Trainingsgenauigkeit und geringeren Vielfalt führte. Um diese Probleme zu lösen, schlagen wir APOLLO vor, um das Framework für langform-Zahlenschlussfolgerung zu verbessern. Für den Retriever verwenden wir eine zahlenbewusste negative Sampling-Strategie, um den Retriever sensitiver gegenüber zentralen numerischen Fakten zu machen. Für den Generator entwickeln wir eine konsistenzbasierte Verstärkungslernmethode sowie eine Zielprogramm-Erweiterungsstrategie, die auf der Konsistenz der Ausführungsergebnisse des Programms basiert. Experimentelle Ergebnisse auf den Leaderboards von FinQA und ConvFinQA bestätigen die Wirksamkeit unseres Ansatzes und erreichen eine neue state-of-the-art-Leistung.