11日前
指示チューニングにおける専門言語モデルのトレーニングの利点についての探求
Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo

要約
最近、複数のタスクで微調整(fine-tuning)された言語モデル(LMs)—いわゆるマルチタスクプロンプト微調整(MT)—は、未見のタスクへの汎化能力を示している。従来の研究では、トレーニングタスク数を増やすことが、より強力なMT-LMを構築する上で鍵となる要素であることが示されてきた。本研究では、驚くべき発見を報告する。ある特定タスクのみで微調整されたエキスパートLMが、300以上の異なるタスクで訓練されたMT-LMよりも、11の未見データセットにおいて平均3.20%、BIG-benchベンチマークの13のデータセットにおいて平均1.29%高い精度を達成した。この結果は、単にタスク数を増やすことでMT-LMの性能が必然的に向上するという従来の認識に疑問を呈するものである。この発見を基に、本研究では、1つのMT-LMではなく、各トレーニングタスクごとに個別にエキスパートLMを訓練する「分散型アプローチ」が、ゼロショット推論において以下の利点をもたらすことを示した。(1)インストラクション微調整時にしばしば発生するネガティブなタスク転送(negative task transfer)を回避できる、(2)過去のタスクを再トレーニングせずに新たなタスクを継続的に学習でき、災害的忘却(catastrophic forgetting)を回避できる、(3)個々のエキスパートを統合することで、構成的(compositional)な能力を示すことができる。コードは以下のURLで公開されている:https://github.com/joeljang/ELM。