vor 3 Monaten

Der Tod der Schema-Verknüpfung? Text-to-SQL im Zeitalter gut durchdachter Sprachmodelle

Karime Maamari, Fadhil Abubaker, Daniel Jaroslawicz, Amine Mhedhbi

Abstract

Schema-Linking ist ein entscheidender Schritt in Text-zu-SQL-Pipelines. Ziel ist es, die relevanten Tabellen und Spalten einer Zieldatenbank für eine Benutzeranfrage zu ermitteln, während irrelevante Elemente ignoriert werden. Allerdings kann eine unvollkommene Schema-Linking-Phase häufig erforderliche Spalten ausschließen, die für die präzise Generierung von Abfragen notwendig sind. In dieser Arbeit untersuchen wir erneut das Schema-Linking im Kontext der neuesten Generation großer Sprachmodelle (LLMs). Experimentell stellen wir fest, dass neuere Modelle in der Lage sind, relevante Schema-Elemente effektiv während der Generierung zu nutzen, selbst wenn eine große Anzahl irrelevanter Elemente vorhanden ist. Daher verzichtet unsere Text-zu-SQL-Pipeline in Fällen, in denen das Schema in den Kontextfenster des Modells passt, vollständig auf Schema-Linking, um Probleme durch das Filtern erforderlicher Schema-Elemente zu minimieren. Zudem setzen wir statt der Filterung kontextueller Informationen Techniken wie Erweiterung (Augmentation), Auswahl (Selection) und Korrektur (Correction) ein, um die Genauigkeit unserer Text-zu-SQL-Pipeline zu verbessern. Unser Ansatz erreicht die erste Platzierung im BIRD-Benchmark mit einer Genauigkeit von 71,83 %.