6ヶ月前

ディープラーニング

自然言語処理

アプローチ／フレームワーク

自然言語処理

Hanxiao Liu Zihang Dai David R. So Quoc V. Le

概要

Transformerは、近年の深層学習における最も重要なアーキテクチャ的革新の一つとなり、多くの画期的な成果をもたらしてきました。本研究では、ゲーティングを備えたMLPに基づくシンプルなネットワークアーキテクチャであるgMLPを提案し、自然言語処理および画像認識の主要な応用において、Transformerと同等の性能を発揮できることを示します。比較実験の結果、Vision Transformerにおいては自己注意（self-attention）が必須ではないことが明らかになりました。gMLPでも同程度の精度が達成可能です。BERTに対しては、事前学習時の perplexity においてTransformerと同等の性能を達成し、一部の下流NLPタスクではより優れた結果を示しました。gMLPが劣る微調整（fine-tuning）タスクにおいても、gMLPモデルを大幅に拡大することで、Transformerとの性能差を埋めることができました。総じて、実験結果からgMLPはデータ量および計算リソースの増加に伴い、Transformerと同程度にスケーラブルであることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ディープラーニング

自然言語処理

アプローチ／フレームワーク

自然言語処理

Hanxiao Liu Zihang Dai David R. So Quoc V. Le

概要

Transformerは、近年の深層学習における最も重要なアーキテクチャ的革新の一つとなり、多くの画期的な成果をもたらしてきました。本研究では、ゲーティングを備えたMLPに基づくシンプルなネットワークアーキテクチャであるgMLPを提案し、自然言語処理および画像認識の主要な応用において、Transformerと同等の性能を発揮できることを示します。比較実験の結果、Vision Transformerにおいては自己注意（self-attention）が必須ではないことが明らかになりました。gMLPでも同程度の精度が達成可能です。BERTに対しては、事前学習時の perplexity においてTransformerと同等の性能を達成し、一部の下流NLPタスクではより優れた結果を示しました。gMLPが劣る微調整（fine-tuning）タスクにおいても、gMLPモデルを大幅に拡大することで、Transformerとの性能差を埋めることができました。総じて、実験結果からgMLPはデータ量および計算リソースの増加に伴い、Transformerと同程度にスケーラブルであることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MLPに注目せよ | 記事 | HyperAI超神経