反蒸馏抽样
Yash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
发布日期: 4/24/2025

摘要
前沿模型生成的扩展推理轨迹无意中产生了丰富的令牌序列,这些序列可以促进模型蒸馏。认识到这一漏洞后,模型所有者可能会寻求采样策略来限制蒸馏的有效性,同时不损害模型的性能。反蒸馏采样正好提供了这种能力。通过战略性地修改模型的下一个令牌概率分布,反蒸馏采样破坏了推理轨迹,使其在蒸馏过程中显著降低有效性,同时保留了模型的实际效用。更多详情请参阅 https://antidistillation.com。