2ヶ月前

UL2: 言語学習パラダイムの統一

Yi Tay; Mostafa Dehghani; Vinh Q. Tran; Xavier Garcia; Jason Wei; Xuezhi Wang; Hyung Won Chung; Siamak Shakeri; Dara Bahri; Tal Schuster; Huaixiu Steven Zheng; Denny Zhou; Neil Houlsby; Donald Metzler
UL2: 言語学習パラダイムの統一
要約

既存の事前学習モデルは一般的に特定の問題クラス向けに設計されています。現在までに、適切なアーキテクチャと事前学習設定に関する共通認識が得られていないようです。本論文では、データセットや設定を問わず普遍的に効果的な事前学習モデルの統一フレームワークを提案します。まず、アーキテクチャの原型と事前学習目標という、しばしば混同される2つの概念を分離します。次に、NLPにおける自己監督の一般化された統一的な視点を提示し、異なる事前学習目標が互いに変換可能であることを示し、異なる目標間での補間が効果的であることを解説します。その後、多様な事前学習パラダイムを組み合わせた「Mixture-of-Denoisers (MoD)」という新しい事前学習目標を提案します。さらに、下流タスクの微調整が特定の事前学習スキーマに関連付けられる「モード切り替え」という概念を導入します。私たちは多数の事前学習目標を比較するための広範な削減実験を行い、T5やGPTのようなモデルを超える性能でパレートフロンティアを押し進めることがわかった方法について報告します。私たちのモデルは200億パラメータにスケールアップさせることで、50以上の確立された教師あり微調整ベースのNLPタスクにおいて最先端(SOTA)の性能を達成しました。また、当該モデルはゼロショットSuperGLUEにおいて1750億パラメータを持つGPT-3を上回り、ワンショット要約においてT5-XXLの性能を3倍にするなど、コンテキスト内学習でも優れた結果を得ています。ゼロショットMMLUにおいてもUL2 20BはT0およびT5モデルを上回っています。UL2 20Bは思考チェーンプロンプトと推論にも対応しており、200億パラメータ程度の中規模から小規模での推論研究にとって魅力的な選択肢となっています。最後に、FLAN指示微調整をUL2 20Bモデルに適用し、MMLUおよびBig-BenchスコアでFLAN-PaLM 62Bと競争力のある結果を得ました。私たちはFlaxベースのT5XチェックポイントとしてUL2 20BおよびFlan-UL2 20Bを公開しています。

UL2: 言語学習パラダイムの統一 | 最新論文 | HyperAI超神経