GPT 全称为 Generative Pre-trained Transformer(生成型预训练变换模型),是一种基于 Transformer 架构的深度学习神经网络模型,由 OpenAI 公司于 2018 年提出。 GPT 模型通过在大规模文本数据上进行预训练,具备强大的语言理解和生成能力,可以用于文本生成、对话系统、机器翻译、情感分析、问答系统等多种自然语言处理任务。
GPT 模型的核心技术是 Transformer 架构,它通过自注意力机制有效地捕捉上下文信息,处理长距离依赖关系,并实现并行计算。 GPT 模型的预训练过程通常使用语言模型的目标函数,即根据前 k 个词预测下一个词的概率,然后在特定任务上进行微调。下图展示了 GPT 的各个发展阶段。