17일 전

내부 앙상블 학습 트랜스포머를 통한 세부 시각 분류

{Bin Luo, Bo Jiang, Jiahui Wang, Qin Xu}
초록

최근 들어, 비전 트랜스포머(Vision Transformers, ViTs)는 미세한 시각 인식(Fine-Grained Visual Recognition, FGVC) 분야에서 광범위하게 연구되어 현재 최첨단 기술로 여겨지고 있다. 그러나 대부분의 ViT 기반 연구는 다중 헤드 자기주의(Multi-Head Self-Attention, MHSA) 메커니즘 내 헤드들 간의 다양한 학습 성능 차이와 각 레이어 간의 차이를 무시하고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 FGVC를 위한 새로운 내부 앙상블 학습 트랜스포머(Internal Ensemble Learning Transformer, IELT)를 제안한다. 제안된 IELT는 세 가지 주요 모듈로 구성된다: 다중 헤드 투표(Multi-Head Voting, MHV) 모듈, 층 간 정제(Cross-Layer Refinement, CLR) 모듈, 그리고 동적 선택(Dynamic Selection, DS) 모듈이다. 여러 헤드 간 성능 불일치 문제를 해결하기 위해, MHV 모듈을 제안하며, 각 레이어의 모든 헤드를 약한 학습자로 간주하고, 주의 맵(attention maps)과 공간적 관계를 기반으로 구분 가능한 영역의 토큰을 투표하여 층 간 특징을 생성한다. 또한, 층 간 특징을 효과적으로 탐색하고 노이즈를 억제하기 위해 CLR 모듈을 제안하며, 정제된 특징을 추출하고 최종 예측을 위한 보조 로짓(assist logits) 연산을 도입한다. 더불어, 새로 설계된 DS 모듈은 정제된 특징에 대한 기여도를 가중하여 각 레이어에서의 토큰 선택 수를 동적으로 조정한다. 이를 통해 앙상블 학습의 개념을 ViT에 통합함으로써 미세한 시각적 특징 표현을 향상시킨다. 실험 결과, 제안한 방법은 다섯 가지 대표적인 FGVC 데이터셋에서 기존 최첨단 기술과 비교하여 경쟁력 있는 성능을 보였다. 소스 코드는 공개되었으며, 다음 링크에서 확인할 수 있다: https://github.com/mobulan/IELT.

내부 앙상블 학습 트랜스포머를 통한 세부 시각 분류 | 최신 연구 논문 | HyperAI초신경