DIN-SQL: Dekomponierte In-Context-Lernmethode für Text-zu-SQL mit Selbstkorrektur

Derzeit besteht eine erhebliche Leistungslücke zwischen fine-tunenden Modellen und Prompting-Ansätzen mit großen Sprachmodellen (Large Language Models, LLMs) bei der anspruchsvollen Aufgabe Text-to-SQL, wie sie anhand von Datensätzen wie Spider evaluiert wird. Um die Leistung von LLMs im reasoning-Prozess zu verbessern, untersuchen wir, wie die Aufgabe durch ihre Zerlegung in kleinere Teilprobleme effektiv verbessert werden kann. Insbesondere zeigen wir, dass die Aufteilung des Generierungsproblems in Teilprobleme und die anschließende Eingabe der Lösungen dieser Teilprobleme in LLMs eine wirksame Strategie darstellt, um deren Leistung signifikant zu steigern. Unsere Experimente mit drei LLMs belegen, dass dieser Ansatz ihre einfache Few-Shot-Leistung konsequent um etwa 10 % verbessert und damit die Genauigkeit von LLMs nahe an die aktuell beste Leistung (SOTA) bringt oder diese sogar übertreffen kann. Auf dem Holdout-Testset von Spider lag die damalige SOTA in Bezug auf die Ausführungspräzision bei 79,9, während die neue SOTA bei Verwendung unseres Ansatzes zu diesem Zeitpunkt bei 85,3 lag. Unser Ansatz mit In-Context-Learning erreicht bei der Bewertung auf dem BIRD-Benchmark eine Ausführungspräzision von 55,9 % und stellt damit eine neue SOTA auf dessen Holdout-Testset dar. Zudem schlägt unser Ansatz viele stark fine-tunierte Modelle mindestens um 5 %.