Command Palette
Search for a command to run...

摘要
随着监督微调(Supervised Fine-Tuning, SFT)从轻量级的后训练步骤演变为计算密集型阶段,其规模已与模型训练中期相当,因此在预算受限条件下,数据效率已成为对齐大型语言模型(Large Language Models, LLMs)的关键挑战。现有的数据剪枝方法存在设计碎片化的问题:它们或仅在样本层面操作,或仅在词元(token)层面进行,无法同时优化这两个维度。这种割裂导致显著的效率损失——高价值样本中仍可能包含冗余词元,而仅在词元层面进行剪枝时,常常会误删嵌入在单个样本中的关键指令或纠正性信号。为解决这一瓶颈,我们提出误差-不确定性(Error-Uncertainty, EU)平面,这是一个诊断框架,能够联合刻画训练数据在样本与词元两个维度上的异质性价值。基于这一洞察,我们进一步提出四象限微调(Quadrant-based Tuning, Q-Tuning),一种统一的框架,可战略性地协同进行样本剪枝与词元剪枝。Q-Tuning采用两阶段策略:首先,在样本层面实施筛选,保留包含丰富信息性误解或校准信号的样本;其次,采用非对称的词元剪枝策略,通过上下文感知的评分机制,仅对包含误解的样本进行低显著性词元的裁剪,而完整保留校准类样本的全部内容。我们的方法在五个不同基准测试中均达到新的最先进水平。尤为突出的是,在 SmolLM2-1.7B 模型上,Q-Tuning 仅使用原始训练数据的 12.5%,便实现了相对于全数据 SFT 基线平均提升 38% 的性能表现。作为首个在所有测试中 consistently 超越全数据训练的动态剪枝方法,Q-Tuning 为在预算受限条件下最大化数据利用率提供了实用且可扩展的范式,为未来高效 LLM 微调提供了重要参考。