MIG:通过最大化语义空间中的信息增益来自动选择数据以进行指令调整
Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen
发布日期: 4/22/2025

摘要
数据质量和多样性是构建有效指令调整数据集的关键。% 随着开源指令调整数据集的日益普及,从海量数据中自动选择高质量和多样化的子集将大有裨益。% 现有方法通常优先考虑实例质量,并使用启发式规则来保持多样性。% 然而,缺乏对整个集合的全面了解往往会导致结果不理想。% 此外,启发式规则通常关注嵌入空间内的距离或聚类,这无法准确捕捉语义空间中复杂指令的意图。% 为了弥合这一差距,我们提出了一种统一的方法来量化数据集的信息内容。该方法通过构建标签图来对语义空间进行建模,并根据图内的信息分布来量化多样性。 % 基于这样的测量,我们进一步引入一种有效的采样方法,该方法迭代地选择数据样本以在语义空间中最大化 \textbf{M} \textbf{I} 信息 \textbf{G}ain(MIG)。% 在各种数据集和基础模型上的实验表明,MIG 始终优于最先进的方法。% 值得注意的是,使用 MIG 采样的 5\% Tulu3 数据进行微调的模型实现了与在完整数据集上训练的官方 SFT 模型相当的性能,在 AlpacaEval 上提高了 +5.73\%,在 Wildbench 上提高了 +6.89\%。