HyperAI超神経

変圧器モデル

Transformer モデルは、Google Brain のチームによって 2017 年に発表され、NLP 問題に推奨されるモデルとして、Long Short-Term Memory (LSTM) などの RNN モデルに徐々に取って代わりました。並列化の利点により、より大きなデータセットでトレーニングできるようになります。これは、BERT や GPT などの事前トレーニング モデルの開発にも貢献しました。これらのシステムは、Wikipedia や Common Crawl などの大規模なコーパスを使用してトレーニングされており、特定のタスクに合わせて微調整できます。

Transformer モデルは、入力データの各部分の重要性に応じて異なる重みを割り当てることができるセルフ アテンション メカニズムを使用する深層学習モデルです。このモデルは主に自然言語処理 (NLP) とコンピューター ビジョン (CV) の分野で使用されます。

リカレント ニューラル ネットワーク (RNN) と同様に、Transformer モデルは自然言語などの順次入力データを処理するように設計されており、翻訳やテキスト要約などのタスクに適用できます。 RNN とは異なり、Transformer モデルはすべての入力データを一度に処理できます。アテンション メカニズムは、入力シーケンス内の任意の位置にコンテキストを提供できます。入力データが自然言語の場合、Transformer は RNN のように一度に 1 つの単語を処理する必要がありません。このアーキテクチャにより、より多くの並列計算が可能になり、トレーニング時間が短縮されます。

電車

Transformer モデルは通常、教師なし事前トレーニングや教師あり微調整などの自己教師あり学習を受けます。教師あり微調整で使用されるラベル付きトレーニング データは一般に限られているため、事前トレーニングは通常、微調整で使用されるデータ セットよりも大きなデータ セットで実行されます。事前トレーニングおよび微調整タスクには通常、次のものが含まれます。

  • 言語モデリング
  • 次の文の予測
  • 質疑応答システム
  • 読解
  • テキスト感情分析
  • テキストの書き換え

応用

Transformer モデルは、機械翻訳や時系列予測タスクなどの自然言語処理 (NLP) の分野で大きな成功を収めています。 GPT-2、GPT-3、BERT、XLNet、RoBERTa を含む多くの事前トレーニング済みモデルは、さまざまな NLP 関連タスクを実行し、多くの実用的なアプリケーションを実現する Transformer モデルの能力を実証しています。これらのアプリケーションには次のものが含まれます。

  • 機械翻訳
  • テキストの要約
  • テキストの生成
  • 固有表現の認識
  • 生物学的配列分析
  • ビデオの理解

2020 年に、Transformer アーキテクチャ (より具体的には GPT-2) が、微調整を通じてチェスをプレイするタスクを実行できることが示されました。トランスフォーマー モデルは画像処理にも適用されており、畳み込みニューラル ネットワークに匹敵する結果が得られています。

参考文献

【1】https://zh.wikipedia.org/wiki/Transformer%E6%A8%A1%E5%9E%8B#cite_note-:6-4