Graphix-T5: Kombination vortrainierter Transformers mit graphenbewussten Schichten für Text-zu-SQL-Parser

Die Aufgabe der Text-zu-SQL-Parsing, die darauf abzielt, natürliche Sprachfragen in ausführbare SQL-Abfragen zu transformieren, hat in den letzten Jahren zunehmend Aufmerksamkeit erlangt, da sie Endnutzern hilft, effizient wertvolle Informationen aus Datenbanken abzurufen, ohne über technische Fachkenntnisse verfügen zu müssen. Eine der zentralen Herausforderungen im Bereich Text-zu-SQL-Parsing ist die Domänenverallgemeinerung, also die Fähigkeit, gut auf bisher nicht gesehene Datenbanken zu generalisieren. Kürzlich hat das vortrainierte Text-zu-Text-Transformer-Modell T5, obwohl es nicht speziell für Text-zu-SQL-Parsing entwickelt wurde, auf Standardbenchmarks, die auf Domänenverallgemeinerung abzielen, herausragende Ergebnisse erzielt. In dieser Arbeit untersuchen wir Möglichkeiten, das vortrainierte T5-Modell durch spezialisierte Komponenten für Text-zu-SQL-Parsing weiter zu verbessern. Diese Komponenten sollen strukturelle induktive Voreingenommenheit in Text-zu-SQL-Parser einbringen und somit die Fähigkeit des Modells zur (potenziell mehrschrittigen) Schlussfolgerung stärken, was entscheidend für die Generierung strukturreicher SQL-Abfragen ist. Dazu schlagen wir eine neue Architektur, GRAPHIX-T5, vor – ein hybrides Modell, das aus dem standardisierten vortrainierten Transformer-Modell besteht, das durch speziell entworfene graphenorientierte Schichten erweitert wird. Umfangreiche Experimente und Analysen belegen die Wirksamkeit von GRAPHIX-T5 an vier Text-zu-SQL-Benchmarks: SPIDER, SYN, REALISTIC und DK. GRAPHIX-T5 übertrifft alle anderen T5-basierten Parser mit einem deutlichen Abstand und erreicht neue SOTA-Leistungen. Insbesondere erreicht GRAPHIX-T5-large eine um 5,7 % höhere Genauigkeit bei der exakten Übereinstimmung (EM) und eine um 6,6 % höhere Ausführungspräzision (EX) im Vergleich zum ursprünglichen T5-large. Dies übertrifft sogar die Leistung von T5-3B um 1,2 % bei EM und 1,5 % bei EX.