
摘要
尽管知识蒸馏在实践中取得了显著的 empirically 成功,但当前最先进的方法在训练过程中计算开销巨大,限制了其在实际应用中的推广。为解决这一问题,我们提出两种受廉价熵估计器启发的互补性损失函数。这些损失函数旨在最大化学生模型与教师模型表示之间的相关性与互信息。与现有方法相比,本方法显著降低了训练开销,并在知识蒸馏及跨模型迁移任务中达到了与最先进水平相当的性能表现。此外,我们在二值化蒸馏任务中进一步验证了该方法的有效性,结果表明其在二值量化任务中取得了新的最优性能,其表现已接近全精度模型的水平。代码地址:www.github.com/roymiles/ITRD