8ヶ月前

モデル学習

アプローチ／フレームワーク

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

概要

言語モデルの事前学習は、性能向上に大きな貢献をもたらしましたが、異なるアプローチ間での慎重な比較は困難です。事前学習は計算コストが高く、しばしば異なるサイズの非公開データセットで行われます。本研究では示すように、ハイパーパラメータの選択が最終結果に大きな影響を与えることが確認されています。私たちは、BERTの事前学習（Devlinら, 2019）を再現し、多くの重要なハイパーパラメータと訓練データのサイズが最終的な性能に与える影響を慎重に測定しました。その結果、BERTは著しく未十分に訓練されており、その後に発表されたすべてのモデルの性能を追いつくかそれ以上の性能を達成できることがわかりました。私たちの最良のモデルはGLUE、RACEおよびSQuADにおいて最先端の結果を達成しています。これらの結果は、これまで見落とされていた設計選択肢の重要性を強調するとともに、最近報告された改善の源泉について疑問を呈しています。私たちはモデルとコードを公開します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

モデル学習

アプローチ／フレームワーク

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

概要

言語モデルの事前学習は、性能向上に大きな貢献をもたらしましたが、異なるアプローチ間での慎重な比較は困難です。事前学習は計算コストが高く、しばしば異なるサイズの非公開データセットで行われます。本研究では示すように、ハイパーパラメータの選択が最終結果に大きな影響を与えることが確認されています。私たちは、BERTの事前学習（Devlinら, 2019）を再現し、多くの重要なハイパーパラメータと訓練データのサイズが最終的な性能に与える影響を慎重に測定しました。その結果、BERTは著しく未十分に訓練されており、その後に発表されたすべてのモデルの性能を追いつくかそれ以上の性能を達成できることがわかりました。私たちの最良のモデルはGLUE、RACEおよびSQuADにおいて最先端の結果を達成しています。これらの結果は、これまで見落とされていた設計選択肢の重要性を強調するとともに、最近報告された改善の源泉について疑問を呈しています。私たちはモデルとコードを公開します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています