17日前

Few-Shot Parameter-Efficient Fine-Tuningは、In-Context Learningよりも優れており、コストも低い

Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel

要約

Few-shot in-context learning（ICL）は、予め学習された言語モデルが勾配ベースの訓練を一切行わずに、入力に少数の訓練例を含めることで、これまでに見たことのないタスクを実行可能にする手法である。しかしながら、ICLは予測を行うたびにすべての訓練例を処理する必要があるため、計算コスト、メモリ使用量、ストレージ消費量が著しく高くなるという課題を抱えている。これに対して、パラメータ効率的な微調整（PEFT）——例えばアダプタモジュール、プロンプトチューニング、スパース更新法など——は、新しいタスクを実行可能にするために、少数のパラメータのみを学習する代替的なアプローチを提供している。本論文では、Few-shot ICLとPEFTを厳密に比較し、後者がより高い精度を達成するとともに、計算コストを大幅に低減できることを実証している。さらに、学習可能なベクトルによって活性化をスケーリングする新しいPEFT手法（IA）$^3$を提案する。この手法は、非常に少量の新たなパラメータしか追加しないにもかかわらず、優れた性能を達成している。また、T0モデルに基づくシンプルなアプローチであるT-Fewを提案し、タスク固有のチューニングや修正なしに新たなタスクに適用可能であることを示している。RAFTベンチマークを用いた実験により、T-Fewがまったく新しいタスクに対しても有効であることを検証し、初めて人間を上回る性能を達成し、最先端の手法を6%の絶対差で上回った。本研究で用いたすべてのコードは、公開されている。