HyperAIHyperAI

Command Palette

Search for a command to run...

ゲート付き畳み込みネットワークを用いた言語モデルリング

Yann N. Dauphin Angela Fan Michael Auli David Grangier

概要

現在までの言語モデルの主流なアプローチは、再帰型ニューラルネットワーク(Recurrent Neural Networks: RNN)に基づいています。このタスクにおけるRNNの成功は、無限のコンテキストを捉える能力としばしば結びつけられています。本論文では、積み重ねた畳み込み(stacked convolutions)を通じて有限のコンテキストアプローチを開発し、シーケンシャルトークン間での並列化が可能であるため、より効率的であることを示します。私たちは新しい簡素化されたゲーティング機構を提案し、これがOordら(2016年)の方法を上回ることを確認しました。また、重要なアーキテクチャ決定の影響を調査しています。提案されたアプローチはWikiText-103ベンチマークで最先端の性能を達成しており、長期依存関係が含まれているにもかかわらず、Google Billion Wordsベンチマークでも競争力のある結果を示しています。私たちのモデルは、再帰型ベースラインと比較して文のスコアリングにかかる遅延時間を1桁削減しています。当該研究において、大規模な言語タスクで強力な再帰型モデルと競争できる非再帰型アプローチが初めて提案されたものだと認識しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています