17일 전
ViT-NeT: 신경 트리 디코더를 갖춘 해석 가능한 비전 트랜스포머
{Sangwon Kim; Jaeyeal Nam; Byoung Chul Ko}

초록
비전 트랜스포머(Vision Transformers, ViTs)는 이미지 분류 분야에서 최첨단 성능을 입증한 바 있으며, 주의 기반 기여도를 통해 전역적인 해석을 시각화할 수도 있다. 그러나 모델의 복잡성으로 인해 결정 과정을 해석하는 데 어려움이 있으며, 주의 맵(attention maps)의 모호성은 이미지 패치 간 잘못된 상관관계를 유발할 수 있다. 본 연구에서는 새로운 ViT 신경 트리 디코더(ViT-NeT)를 제안한다. ViT는 백본(backbone) 역할을 하며, 이를 보완하기 위해 제안된 NeT(Neural Tree)에 출력된 컨텍스트 이미지 패치를 입력한다. NeT는 유사한 클래스 간 상관관계와 서로 다른 클래스 내 상관관계를 가진 미세 분류 객체를 정확하게 분류하는 것을 목표로 한다. 또한 트리 구조와 프로토타입을 통해 결정 과정을 설명하고, 결과의 시각적 해석을 가능하게 한다. 제안된 ViT-NeT는 분류 성능 향상뿐만 아니라 인간 친화적인 해석을 제공하도록 설계되어, 성능과 해석 가능성 사이의 트레이드오프를 효과적으로 해결할 수 있다. 다양한 미세 분류 시각 인식 기준 데이터셋을 활용해 ViT-NeT의 성능을 다른 최첨단 방법들과 비교한 결과, 분류 성능 및 해석 가능성 측면에서 제안된 방법이 우수함을 실험적으로 입증하였다. 코드 및 모델은 공개되어 있으며, https://github.com/jumpsnack/ViT-NeT 에서 확인할 수 있다.