2 个月前

学习与元数据无关的文本到SQL上下文表示用于示例选择

Mai, Chuhong ; Tal, Ro-ee ; Mohamed, Thahir
学习与元数据无关的文本到SQL上下文表示用于示例选择
摘要

情境学习(In-context learning, ICL)是一种强大的范式,其中大型语言模型(LLMs)可以从添加到提示中的任务演示中受益。然而,选择最优的演示并非易事,尤其是在输入和输出分布不同的复杂或多模态任务中。我们假设形成特定任务的输入表示是关键所在。在本文中,我们提出了一种方法,将自然语言问题和SQL查询的表示对齐到一个共享的嵌入空间中。我们的技术被称为MARLO——无需元数据的文本到SQL表示学习(Metadata-Agnostic Representation Learning for Text-to-SQL)。该技术利用查询结构来建模查询意图,而不过度依赖底层数据库元数据(即问题或查询中引用的表、列或特定领域的实体)。这使得MARLO能够选择在结构和语义上与任务相关的示例,而不是那些偶然与某个领域或问题表述相关的示例。基于问题相似性检索示例时,MARLO在Spider基准测试中的执行准确性比通用嵌入模型平均提高了2.9个百分点,并且在平均执行准确性上也优于下一个最佳方法(该方法屏蔽了元数据信息),提高了0.8个百分点,同时显著降低了推理延迟。