Command Palette
Search for a command to run...
RoBERTa: 堅牢に最適化されたBERTの事前学習手法
RoBERTa: 堅牢に最適化されたBERTの事前学習手法
Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov
概要
言語モデルの事前学習は、性能向上に大きな貢献をもたらしましたが、異なるアプローチ間での慎重な比較は困難です。事前学習は計算コストが高く、しばしば異なるサイズの非公開データセットで行われます。本研究では示すように、ハイパーパラメータの選択が最終結果に大きな影響を与えることが確認されています。私たちは、BERTの事前学習(Devlinら, 2019)を再現し、多くの重要なハイパーパラメータと訓練データのサイズが最終的な性能に与える影響を慎重に測定しました。その結果、BERTは著しく未十分に訓練されており、その後に発表されたすべてのモデルの性能を追いつくかそれ以上の性能を達成できることがわかりました。私たちの最良のモデルはGLUE、RACEおよびSQuADにおいて最先端の結果を達成しています。これらの結果は、これまで見落とされていた設計選択肢の重要性を強調するとともに、最近報告された改善の源泉について疑問を呈しています。私たちはモデルとコードを公開します。