HyperAIHyperAI
vor 11 Tagen

MuggleMath: Bewertung des Einflusses von Abfrage- und Antwortverstärkung auf mathematische Schlussfolgerung

Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou
MuggleMath: Bewertung des Einflusses von Abfrage- und Antwortverstärkung auf mathematische Schlussfolgerung
Abstract

Bei der mathematischen Schlussfolgerung mit großen Sprachmodellen (LLMs) hat sich die datenbasierte Datenvervollkommnung durch Query-Evolution und vielfältige Schlussfolgerungspfade empirisch als wirksam erwiesen und verringert die Leistungslücke zwischen offenen LLMs und führenden proprietären LLMs erheblich. In diesem Paper untersuchen wir die Wirksamkeit solcher Datenvervollkommnung im Bereich der mathematischen Schlussfolgerung und zielen darauf ab, folgende Fragen zu beantworten: (1) Welche Strategien der Datenvervollkommnung sind wirksamer? (2) Wie verhält sich die Skalierung zwischen der Menge an vervollkommneten Daten und der Modellleistung? (3) Kann Datenvervollkommnung die Generalisierung auf außerhalb des Domänen liegende mathematische Schlussfolgerungsaufgaben fördern? Dazu erstellen wir zwei neue Datensätze, AugGSM8K und AugMATH, indem wir die Queries komplexer gestalten und diversifizieren sowie mehrere Schlussfolgerungspfade aus GSM8K und MATH sampling. Durch Fine-Tuning von LLaMA-Modellen auf AugGSM8K und AugMATH erhalten wir eine Reihe von LLMs namens MuggleMath, die erhebliche Fortschritte bei der Erreichung neuer State-of-the-Art-Leistungen auf GSM8K und MATH erzielt. Zwischen der Leistung von MuggleMath und der Menge an vervollkommneten Daten zeigen sich jeweils eine log-lineare Beziehung (auf GSM8K) und eine segmentierte log-lineare Beziehung (auf MATH). Zudem stellen wir fest, dass die Generalisierung auf außerhalb der Domäne liegende mathematische Aufgaben – etwa von AugGSM8K auf MATH und umgekehrt – relativ schwach ist, was darauf hindeutet, dass die Vervollkommnung von Queries, die einen breiteren Themenbereich abdecken, förderlicher für die Generalisierung ist. Wir stellen unseren Code sowie die vervollkommneten Daten unter https://github.com/OFA-Sys/gsm8k-ScRel zur Verfügung.

MuggleMath: Bewertung des Einflusses von Abfrage- und Antwortverstärkung auf mathematische Schlussfolgerung | Neueste Forschungsarbeiten | HyperAI