Evaluierung und Verbesserung von LLMs für Multi-turn Text-to-SQL mit mehreren Fragearten

Neuere Fortschritte bei großen Sprachmodellen (LLMs) haben Text-zu-SQL-Systeme erheblich verbessert. Dennoch konzentrieren sich die meisten LLM-basierten Methoden oft zu sehr auf die SQL-Generierung und vernachlässigen die Komplexitäten von realen Konversationsabfragen. Diese Nachlässigkeit kann zu unzuverlässigen Antworten führen, insbesondere bei mehrdeutigen Fragen, die nicht direkt mit SQL beantwortet werden können. Um diese Lücke zu schließen, schlagen wir MMSQL vor, eine umfassende Testumgebung, die entwickelt wurde, um die Frageklassifizierungs- und SQL-Generierungsfähigkeiten von LLMs durch die Simulation realistischer Szenarien mit verschiedenen Fragearten und mehrstufigen Q&A-Interaktionen zu bewerten. Mit MMSQL haben wir die Leistungsfähigkeit beliebter LLMs evaluiert, darunter sowohl Open-Source- als auch proprietäre Modelle, und wichtige Faktoren identifiziert, die ihre Leistung in solchen Szenarien beeinflussen. Darüber hinaus stellen wir einen LLM-basierten Mehragentenrahmen vor, der spezialisierte Agenten einsetzt, um Fragearten zu erkennen und angemessene Antwortstrategien zu bestimmen. Unsere Experimente zeigen, dass dieser Ansatz die Fähigkeit des Modells erheblich steigert, die Komplexitäten von Konversationsdynamiken zu meistern und somit effektiv mit der vielfältigen und komplexen Natur von Benutzerabfragen umzugehen. Unser Datensatz und unser Code sind öffentlich verfügbar unter https://mcxiaoxiao.github.io/MMSQL.