HyperAI超神经

Transformer 模型

Transformer 模型是于 2017 年 Google Brain 的一个团队于 2017 年推出的,现已逐步取代长短期记忆 (LSTM) 等 RNN 模型成为了 NLP 问题的首选模型。并行化优势允许其在更大的数据集上进行训练。这也促成了 BERT 、 GPT 等预训练模型的发展。这些系统使用了维基百科、 Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调。

Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理 (NLP) 与计算机视觉 (CV) 领域。

与循环神经网络 (RNN) 一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,Transformer 则不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。

训练

Transformer 模型通常会进行自监督学习,包括无监督预训练和监督微调。由于监督微调时使用的带标签训练数据一般比较有限,预训练通常会在比微调时所用的更大的数据集上完成。预训练和微调的任务通常包括:

  • 语言建模
  • 下一句预测
  • 问答系统
  • 阅读理解
  • 文本情感分析
  • 文本改写

应用

Transformer 模型在自然语言处理 (NLP) 领域获取了巨大成功,例如机器翻译与时间序列预测任务。包括 GPT-2 、 GPT-3 、 BERT 、 XLNet 与 RoBERTa 在内的许多预训练模型展示了 Transformer 模型执行各种 NLP 相关任务的能力,并有很多潜在实际应用。这些应用包括:

  • 机器翻译
  • 文本摘要
  • 文本生成
  • 命名实体识别
  • 生物序列分析
  • 视频理解

2020 年,Transformer 架构(更具体地说是 GPT-2)被证明可以通过微调执行下象棋的任务。 Transformer 模型也已应用于图像处理,其结果可与卷积神经网络相媲美。

参考来源

【1】https://zh.wikipedia.org/wiki/Transformer%E6%A8%A1%E5%9E%8B#cite_note-:6-4