17 天前

SGPT:用于语义搜索的GPT句子嵌入

Niklas Muennighoff
SGPT:用于语义搜索的GPT句子嵌入
摘要

解码器型Transformer模型的规模持续扩大,参数量已达到数千亿级别。由于其庞大的规模,这类模型通过提示(prompting)或微调(fine-tuning)方法,在多种语言任务上均取得了当前最优的性能。然而,这些大规模基础模型在语义搜索和句子嵌入(sentence embeddings)相关领域仍难以直接应用,导致可能的最新研究成果无法实现,同时也迫使各组织不得不独立训练并维护专用模型。为此,我们提出了SGPT,旨在通过提示或微调方式,使解码器模型能够有效应用于句子嵌入与语义搜索任务。SGPT模型参数量为58亿,在BEIR语义搜索基准测试中,其性能较此前最佳的句子嵌入方法提升了7%,并超越了另一项拥有1750亿参数的并行方法。相关代码、模型及结果文件已公开,可免费获取:https://github.com/Muennighoff/sgpt。