AlphaMath Almost Zero: Prozessüberwachung ohne Prozess

Obwohl die jüngsten Fortschritte bei großen Sprachmodellen (Large Language Models, LLMs) deren Leistungsfähigkeit auf zahlreichen Aufgaben erheblich verbessert haben, stehen sie weiterhin vor Herausforderungen bei komplexen und symbolischen mehrschrittigen Reasoning-Aufgaben, insbesondere im Bereich der mathematischen Schlussfolgerung. Um die mathematischen Reasoning-Fähigkeiten von LLMs zu stärken, konzentrieren sich die meisten bestehenden Ansätze darauf, entweder auf Domain-Experten oder auf GPT-4 zurückzugreifen, um hochwertige, prozessannotierte Daten zu erhalten – ein Ansatz, der nicht nur kostspielig, sondern auch arbeitsintensiv ist. In unserer Studie stellen wir einen innovativen Rahmen, AlphaMath, vor, der die Notwendigkeit von Prozessannotierungen (durch Menschen oder GPTs) umgeht, indem er Monte Carlo Tree Search (MCTS) nutzt. Dieser Rahmen zielt darauf ab, das Potenzial eines gut vortrainierten LLMs zu erschließen, um seine mathematische Schlussfolgerung autonom zu verbessern. Konkret integrieren wir ein Wertmodell mit dem LLM, wodurch sowohl prozessuelle Supervision als auch evaluative Signale auf Schritt-Ebene automatisch im Rahmen von MCTS generiert werden. Darüber hinaus schlagen wir eine effiziente Inferenzstrategie, die schrittweise Beam-Search, vor, bei der das Wertmodell dazu dient, das Policy-Modell (d. h. das LLM) dabei zu unterstützen, wirksamere Schlussfolgerungspfade zu erkunden, anstatt sich ausschließlich auf vorherige Wahrscheinlichkeiten zu verlassen. Die experimentellen Ergebnisse auf sowohl in-domain- als auch out-of-domain-Datensätzen zeigen, dass unser AlphaMath-Rahmen selbst ohne GPT-4 oder menschlich annotierte Prozesssupervision vergleichbare oder überlegene Ergebnisse erzielt im Vergleich zu vorherigen state-of-the-art-Methoden.