Automatische Modellauswahl mit großen Sprachmodellen für Schlussfolgerungen

Chain-of-Thought (CoT) und programmierte Sprachmodelle (PAL) stellen zwei unterschiedliche Schlussfolgerungsansätze dar, jeweils mit eigenen Stärken. CoT nutzt natürliche Sprache und zeichnet sich durch Flexibilität und Interpretierbarkeit aus, während PAL Programmiersprachen einsetzt, was zu strukturierter und rigoroser Logik führt. Wir stellen eine Modellauswahl-Methode vor, die die Vorzüge beider Ansätze vereint, indem ein großes Sprachmodell (LLM) dynamisch zwischen ihnen wählt. Unsere theoretische Analyse unterstreicht die Durchführbarkeit dieser Methode, die durch empirische Ergebnisse weiter bestätigt wird. Unser vorgeschlagener Ansatz zeigt erhebliche Leistungssteigerungen auf acht verschiedenen Schlussfolgerungs-Datensätzen, getestet mit Codex, ChatGPT und GPT-4. Zudem ist unsere Methode komplementär zu Self-Consistency; bei Kombination mit dieser Strategie lässt sich die Leistung weiter steigern, während gleichzeitig die Rechenkosten signifikant sinken. Darüber hinaus erzielen wir neue SOTA-Ergebnisse auf GSM8K und SVAMP mit jeweiligen Genauigkeiten von 96,8 % und 93,7 %. Unser Code, die Daten und die Prompt-Beispiele sind unter https://github.com/XuZhao0/Model-Selection-Reasoning verfügbar.