Command Palette
Search for a command to run...
Yifan Wang Binbin Liu Fengze Liu Yuanfan Guo Jiyao Deng Xuecheng Wu Weidong Zhou Xiaohuan Zhou Taifeng Wang

摘要
语言模型预训练过程中所使用的数据混合策略是决定其最终性能的关键因素。然而,静态的数据混合方式存在局限性,因为模型在训练过程中对不同数据领域学习偏好会动态变化。关键问题在于,如何以计算高效的方式观测这些不断演化的偏好,至今仍是一项重大挑战。为此,我们提出TiKMiX方法,该方法能够根据模型学习偏好的动态演变,实时调整数据混合比例。TiKMiX引入了“组影响力”(Group Influence)这一高效度量指标,用于评估各数据领域对模型的影响程度。该指标使数据混合问题可被建模为寻找一种最大化影响力的最佳分布。我们通过两种途径解决该问题:TiKMiX-D采用直接优化方法,而TiKMiX-M则利用回归模型预测更优的数据混合策略。我们在不同参数规模的模型上进行了训练,最大训练量达到1万亿个token。实验结果表明,TiKMiX-D在性能上超越了当前最先进的方法(如REGMIX),同时仅消耗其20%的计算资源;TiKMiX-M在9个下游基准任务上实现了平均2%的性能提升。我们的实验揭示了模型的数据偏好会随着训练进程和模型规模的增大而持续演化,且证明基于“组影响力”这一直接反映学习偏好的指标,动态调整数据混合比例,能显著提升模型性能,有效缓解静态混合比例导致的数据“消化不足”问题。