2ヶ月前

表層崩壊の削減による更好的な微調整

Armen Aghajanyan; Akshat Shrivastava; Anchit Gupta; Naman Goyal; Luke Zettlemoyer; Sonal Gupta
表層崩壊の削減による更好的な微調整
要約

既存の事前学習言語モデルの微調整手法は広く採用されているものの、ハイパーパラメータ設定によって不安定であることが示されており、これにより最近信頼領域法に関する研究が進んでいます。本論文では、信頼領域理論に基づいた単純で効率的な手法を提案します。この手法は、従来使用されていた敵対的目標関数をパラメトリックノイズ(正規分布または一様分布からのサンプリング)に置き換えることで、性能を損なうことなく微調整中に表現変更を抑制します。また、信頼領域法の一般的な使用を促す新しい分析も紹介します。これは、特定の最終タスクのために微調整される際に、事前学習モデルから一般化可能な表現が劣化する現象(表現崩壊)を研究することで行われます。広範囲にわたる実験結果は、我々の微調整手法がDailyMail/CNN、Gigaword、Reddit TIFU、GLUEベンチマークなどの理解と生成タスクにおいて、以前の信頼領域法と同等かそれ以上の性能を達成することを示しています。さらに、この手法は表現崩壊にかかりにくく、事前学習モデルが微調整されるたびにより一般化可能な表現を維持することが確認されています。

表層崩壊の削減による更好的な微調整 | 最新論文 | HyperAI超神経