HyperAI

大型语言模型通过其庞大的预训练语料库进行学习，从而获得解决日益多样化任务的能力；然而，尽管研究人员持续致力于改进这些数据集，却很少有人关注预训练过程在从数据中提取知识与思想方面的效率如何。在本研究中，我们采用检索增强生成（retrieval-augmented generation）结合推理时计算资源的方法，量化预训练过程在多大程度上未能充分利用数据集的价值，并分析这一现象随模型规模变化的规律。我们发现，先进行预训练，再从标准且广泛开源的数据集中进行检索，可在MMLU、Math-500和SimpleQA等任务上带来显著的准确率提升，且这些提升在去污（decontamination）后依然有效。在MMLU任务上，我们观察到，与仅依赖预训练相比，检索机制相当于实现了约5倍的计算增益。此外，我们还证明，通过在推理阶段引入额外的计算资源来解析所检索到的上下文，可进一步提升性能，例如在公开的LLaMA 3.1 8B模型上，MMLU任务的准确率提升了10个百分点。总体而言，我们的结果表明，当前的预训练方法并未充分挖掘现有预训练数据集中蕴含的信息，仍有巨大的改进空间。

在测试阶段重用预训练数据是一种计算倍增器

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

在测试阶段重用预训练数据是一种计算倍增器

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

摘要

用 AI 构建 AI

Hyper Newsletters