
摘要
细粒度视觉分类(Fine-Grained Visual Classification, FGVC)是计算机视觉领域的一个重要问题,其特点是类别间的视觉差异极小,通常需要专家标注者进行数据收集。基于此类别间微小视觉差异的特性,本文重新审视了最大熵(Maximum-Entropy)学习在细粒度分类任务中的应用,并提出一种训练策略,通过最大化卷积神经网络在FGVC任务中输出概率分布的熵,来优化模型训练过程。我们从理论和实证两个层面验证了该方法的有效性,并在多个FGVC分类任务中取得了当前最优的性能表现,且该方法具有良好的可扩展性,可适用于各类微调任务。此外,该方法对超参数设置、训练数据量以及标签噪声水平均表现出较强的鲁棒性,因而可作为解决诸多类似问题的有力工具。