
摘要
视觉Transformer(Vision Transformers, ViTs)在图像分类任务中已展现出顶尖的性能,并可通过基于注意力机制的贡献度实现全局可解释性。然而,模型本身的复杂性使得其决策过程难以解释,且注意力图的模糊性可能导致图像块之间产生错误的相关性关联。为此,本文提出一种新型的ViT神经树解码器(ViT-NeT)。该方法以ViT作为主干网络,针对其局限性,将输出的上下文图像块输入至所提出的神经树结构(NeT)。NeT旨在对具有相似类间相关性但差异显著的类内相关性的细粒度物体进行精确分类。此外,该模型通过树状结构与原型机制描述决策过程,实现了结果的可视化解释。所提出的ViT-NeT不仅提升了分类性能,还提供了面向人类的可解释性,有效缓解了性能与可解释性之间的权衡问题。我们在多个广泛使用的细粒度视觉分类基准数据集上,将ViT-NeT与现有先进方法进行了对比实验,结果表明,该方法在分类准确率和可解释性方面均表现更优。相关代码与模型已公开发布于:https://github.com/jumpsnack/ViT-NeT。