Sakana AI 推出 Text-to-LoRA:用任务描述即时生成特定任务的 LLM 适配器
Sakana AI推出了一种名为Text-to-LoRA(T2L)的技术,这是一种基于任务描述文本即时生成特定任务适配器(LoRAs)的超网络。T2L旨在解决现有大型语言模型(LLMs)在新领域应用时面临的复杂操作问题,包括数据集选择、长时间微调和高计算成本。 现有的大型语言模型虽然具备广泛的能力,但它们的僵化特性使其难以在少量数据的情况下处理新领域任务。为了应对这一挑战,研究人员通常需要为每个任务创建和训练新的适配器。这种做法不仅耗时,还缺乏可扩展性,每次训练都需要精确设置超参数,否则可能会导致性能不佳。即便适应成功,最终也只会得到许多孤立的任务特定组件,难以集成或重用。 Sakana AI的研究团队提出了T2L,它能够通过自然语言描述的任务直接生成相应的LoRA适配器。T2L作为一个超网络,从一个包含多个领域(如GSM8K、Arc-challenge、BoolQ等)的预训练LoRA适配器库中学习,无需重新训练即可生成所需的低秩矩阵。这种方法不仅可以消除手动生成适配器的需求,还使系统能够在零样本情境下泛化到从未见过的任务。 T2L的架构利用了模块特定和层特定的嵌入来指导生成过程。研究团队测试了三种不同规模的模型变体,分别包含5500万、3400万和500万个参数。尽管参数量不同,所有模型都能生成必要的低秩矩阵。T2L通过Super Natural Instructions数据集中的479个任务进行训练,每个任务都以自然语言形式描述并编码为向量。这些任务描述与学习到的层和模块嵌入结合,生成实现适配器功能所需的低秩A和B矩阵。 在多个基准测试中,T2L的表现令人瞩目。例如,在Arc-easy基准上,T2L的准确率达到了76.6%,与最佳手工调优的适配器持平;在BoolQ基准上,准确率达到89.9%,略高于原始适配器。即使在通常更容易过拟合的PIQA和Winogrande等更难的任务中,T2L仍然优于手工训练的适配器。随着训练数据集的增加,T2L在零样本设置下的泛化能力显著提高。这些改进被认为源于超网络训练中的损失压缩,起到了正则化的作用。