HyperAIHyperAI

Command Palette

Search for a command to run...

ニューラル機械翻訳のスケーリング

Yanqi Zhou Li Dong Qiang He

概要

シーケンス・ツー・シーケンス学習モデルは、単一のマシンを使用して大規模ベンチマークデータセットで最先端の性能に到達するのに数日を要します。本論文では、精度の低下と大規模バッチ訓練により、慎重な調整と実装によって単一の8-GPUマシンでの学習が最大で約5倍高速化することを示しています。WMT'14英語-ドイツ語翻訳タスクにおいて、8つのGPUで学習させることでVaswaniら(2017)の精度に5時間未満で匹敵し、128つのGPUで85分間学習させることで新しい最先端の29.3 BLEUスコアを達成しました。さらに、Paracrawlデータセットというより大きなデータセットを使用して学習することで、この結果を29.8 BLEUまで向上させました。WMT'14英語-フランス語タスクでは、128つのGPUを使用して8.5時間で43.2のBLEUスコアという最先端の結果を得ました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています