17日前

CoT コレクション:チェーン・オブ・トゥークン微調整を用いた言語モデルのゼロショットおよびフェイショット学習の改善

Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, Minjoon Seo
CoT コレクション:チェーン・オブ・トゥークン微調整を用いた言語モデルのゼロショットおよびフェイショット学習の改善
要約

1000億パラメータ未満の言語モデル(LM)は、未踏のタスクを解く際、大規模LMと比較してチェーン・オブ・シンキング(CoT)推論において劣る性能を示すことが知られている。本研究では、CoT推論の根拠(rationales)を用いたインストラクションチューニングにより、小型LMに段階的推論能力を付与することを目指す。この目的を達成するために、まず既存のFlan Collection(CoTタスクが9つだけ含まれる)に加え、1,060のタスクにわたり184万件の推論過程を含む新たなインストラクションチューニングデータセット「CoT Collection」を提案する。本研究では、CoT Collectionを用いた微調整により、Flan-T5(3Bおよび11B)といった小型LMが未踏タスクにおいてより優れたCoT能力を獲得できることを示す。BIG-Bench-Hard(BBH)ベンチマークにおいて、ゼロショットタスク精度の観点から、Flan-T5 3Bで平均+4.34%、Flan-T5 11Bで+2.60%の向上を報告する。さらに、CoT Collectionを用いたインストラクションチューニングにより、4つのドメイン特化タスクにおいてLMが強化されたFew-shot学習能力を発揮することを示し、Flan-T5 3Bで+2.24%、Flan-T5 11Bで+2.37%の性能向上を達成。これは、最大長に達するまでの例示(demonstrations)を用いたChatGPTを+13.98%の差で上回る結果である。本研究のコード、CoT Collectionデータ、およびモデルチェックポイントはすべて公開されている。

CoT コレクション:チェーン・オブ・トゥークン微調整を用いた言語モデルのゼロショットおよびフェイショット学習の改善 | 最新論文 | HyperAI超神経