反蒸馏抽样

Yash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter

发布日期: 4/24/2025

摘要

前沿模型生成的扩展推理轨迹无意中产生了丰富的令牌序列，这些序列可以促进模型蒸馏。认识到这一漏洞后，模型所有者可能会寻求采样策略来限制蒸馏的有效性，同时不损害模型的性能。反蒸馏采样正好提供了这种能力。通过战略性地修改模型的下一个令牌概率分布，反蒸馏采样破坏了推理轨迹，使其在蒸馏过程中显著降低有效性，同时保留了模型的实际效用。更多详情请参阅 https://antidistillation.com。

查看论文详情